Text Mining O Assassino

A arte de text mining usa programação para aceder ao texto de um ou vários livros (ou quaisquer textos!) e extrair informação e padrões.

O romance O Assassino conta com 442 páginas na sua versão capa mole e divide-se em dezoito capítulos. Neste livro, usei um vocabulário de 8 575 palavras distintas ao longo de um total de 89 980 palavras. O vocabulário no total dos meus livros (os que foram contabilizados até agora no meu dicionário) foi de 31 108 palavras distintas, logo, O Assassino conta com 27.6% das minhas palavras. De facto, as palavras usadas neste livro não foram além do meu vocabulário comum:


Apesar de não se destacar pela quantidade e unicidade das palavras, destaca-se pelos temas mais violentos e pesados do que, por exemplo, o Toque Suave. De facto, se olharmos para as palavras mais usadas entre aquelas que são mais frequentes no Assassino do que noutros livros, temos logo uma perceção de negatividade e perigo, mas também das próprias personagens.

A negatividade deste livro, que por vezes simplesmente reflete o perigo constante, também é visível na nuvem de sentimentos. De facto, até as palavras positivas parecem negativas, porque são positivas em consequência das negativas. Por exemplo, “segurança”, pois quem a procura é por temer algo.

No futuro, seria curioso verificar quais as palavras positivas e negativas que se mantém entre diferentes livros. Por exemplo, entre o Toque Suave e O Assassino, visto que são livros opostos (homoerotismo vs terror). Mas “coragem” e “liberdade” parecem-me ser palavras positiva que são encontradas em ambos os livros.

Ainda nesta onda de sentimentos positivos vs negativos, a figura que demonstra o tema e atmosfera geral do livro mais definitivamente é a proporção de palavras boas vs más por capítulo:

Como podem ver, ao longo de dezoito capítulos, apenas um capítulo (o 13) teve mais palavras positivas do que negativas (e por muito pouco!). Aliás, sete dos dezoito capítulos 3/4 de palavras negativas vs 1/4 de palavras positivas. Estes números mostram, de facto, como esta história foi uma tragédia sem verdadeiras vitórias e sem saída. O único capítulo positivo, perto do fim, representa a última tentativa do protagonista mudar a sua vida (e é positivo pela esperança), mas como podem ver a negatividade regressou (e os ciclos trágicos repetiram-se).

Finalmente, falta ver as interações entre palavras:

Como é costume, esta análise permite perceber que palavras foram usadas em conjunto e normalmente permite ver grupos de palavras associadas a temas específicos da história. Neste caso, os grupos de palavras que são maiores parecem ter-se associado a aventuras específicas: a travessia do túnel (“escuridão”, “lanterna”, …); as prisões num só grupo (“pavilhão”, “prisioneiros”, …); os traficantes de droga (“dinheiro”, “motorista”, …). Mas a maioria das palavras agrupou-se em pares ou trios, que apenas refletem certas personagens, por exemplo, “olhos” e “brancos” ou “sem” e “nome”, que se referem a características do protagonista.

E é tudo por hoje! Mais um artigo de text mining com as mesmas análises feitas para o Toque Suave e para os Poemas Inacabados de Martinho.

Francisco Pascoal
15/10/2023

Comments

Deixe um comentário

Design a site like this with WordPress.com
Iniciar