Contador de ocorrência de palavras em arquivos LaTeX (Python)
por
em 14-01-2010 às 02:47 (9899 Visualizações)
--
Boa noite pessoal! Como foram as festas de fim de ano? Espero que tenham aproveitado bastante Eu o fiz!
Não sei se vocês sabem, mas no momento estou escrevendo uma monografia. Meu curso a exige como requisito final para receber o título de Bacharel. Para facilitar minha vida, estou escrevendo-a utilizando o LaTeX. Existe um pacote para o LaTeX chamado ABNTeX que contém todos os estilos outorgados pela ABNT. Dêem uma olhada nesse pacote. Ele pode poupar muito do seu tempo no futuro.
O LaTeX mais é ou menos como o HTML, uma linguagem de marcação. Então, ao invés de você ir colocando o texto e pressionando botõeszinhos para formatá-los, você vai colocando os elementos da linguagem e tal O design do arquivo fica por conta de uma espécie de folha de estilo (ainda na analogia com o HTML).
Então, esses dias eu estava precisando fazer a contabilidade da quantidade de palavras, quais estou usando mais, etc. Como isso não pode ser feito convencionalmente, pois as palavras reservadas são confundidas com elementos do texto, eu resolvi criar um pequeno programa em Python para me auxiliar nessa empreitada. O código é bastante simples e está longe de ser perfeito. Apesar de estar atendendo bem as minhas necessidades, no futuro adicionarei alguns novos recursos.
O script pode ser baixado aqui. Para executá-lo basta fazer:voce@seucomputador:/path$ python contador.py arquivo0.tex arquivo1.tex arquivoN.texEle vai ler cada um dos arquivos e vai sumarizá-los em conjunto. Como eu gosto de separar meus textos em vários arquivos, resolvi fazer dessa forma para poder contabilizar as informações de todos eles.
Uma coisa importante, esse script ignora palavras com menos de 3 letras e também as que estão dentro de uma lista chamada ignore, dentro do código. Por que não ignorar também as palavras de três letras? Simples: acrônimos. USB, SMP, CPU, FTP, SSH, Todos eles fazer parte do dia-a-dia dos computeiros e não podem ficar de fora.
Também há uma lista com algumas palavras reservadas do LaTeX e ABNTeX. Caso alguma palavra reservada esteja sendo contada, basta adicioná-la a essa lista.
Espero que seja de utilidade Até mais
Comentários
+ Enviar Comentário