Olá pessoal,
tenho vários arquivos HTML q preciso transformar em TXT mas sem as TAGS (sem os comandos html´s - Só o conteúdo da página). Tem como fazer isto no linux?
Desde já, agradeço a colaboração de todos.
[]´s,
Savio
Olá pessoal,
tenho vários arquivos HTML q preciso transformar em TXT mas sem as TAGS (sem os comandos html´s - Só o conteúdo da página). Tem como fazer isto no linux?
Desde já, agradeço a colaboração de todos.
[]´s,
Savio
Utilize o navegador texto "Lynx":
Código :$ lynx -dump arquivo.html > arquivo.txt
Uma pequena ajudinha pra facilitar se vc tiver vários arquivos html a serem convertidos em um diretório:
Código :$ for i in *.html ; do lynx -dump "$i" > "`basename "$i" .html`.txt" ; done
:wink:
usa o seguinte procedimento
$arquivo = file("nome do arquivo");
for($x=0; $x<count(arquivo); $x++){
$arquivo[$x] = strip_tags($arquivo[$x]);
}
depois é só salvar a variavel $arquivo dentro do "nome do arquivo"
linha por linha usando fwrite()
Abraços