+ Responder ao Tópico



  1. #1

    Padrão html > txt

    Olá pessoal,
    tenho vários arquivos HTML q preciso transformar em TXT mas sem as TAGS (sem os comandos html´s - Só o conteúdo da página). Tem como fazer isto no linux?
    Desde já, agradeço a colaboração de todos.
    []´s,
    Savio

  2. #2

    Padrão Re: html > txt



    Utilize o navegador texto "Lynx":

    Código :
    $ lynx -dump arquivo.html > arquivo.txt

    Uma pequena ajudinha pra facilitar se vc tiver vários arquivos html a serem convertidos em um diretório:

    Código :
    $ for i in *.html ; do lynx -dump "$i" > "`basename "$i" .html`.txt" ; done

    :wink:



  3. #3
    hez4el
    Visitante

    Padrão Re: html > txt

    usa o seguinte procedimento

    $arquivo = file("nome do arquivo");

    for($x=0; $x<count(arquivo); $x++){
    $arquivo[$x] = strip_tags($arquivo[$x]);
    }

    depois é só salvar a variavel $arquivo dentro do "nome do arquivo"
    linha por linha usando fwrite()

    Abraços