<labiia_lex>, um software para análise textual para todos os pesquisadores
Software aberto para trabalhar com análises de texto.
Sou pesquisador de humanas e especializado em métodos qualitativos. Usei em diferentes momentos da vida os principais softwares de análise qualitativa, como Atlas.ti, Maxdqa e NVivo. Todos ótimos para a codificação qualitativa, mas todos bem limitados para quaisquer explorações automatizadas do conteúdo (ao menos eram até 2020, quando trabalhava com eles). Além disso, os preços dos três sempre foram impediditivos.
Da França, surgiu uma alternativa gratuita e aberta, o Iramuteq. Grande parte dos pesquisadores brasileiros já trabalharam ou ao menos viram alguns feitos do excelente software desenhado por Pierre Ratinaud, no Laboratório LERASS da Universidade de Toulouse. Apesar de relativamente simples, o Iramuteq consegue processar grandes volumes de dados e gerar outputs atraentes e mesmo profundos, sendo excelente ferramenta para análises textuais automatizadas.
Todavia, o Iramuteq tem uma barreira de entrada, que é a necessidade de preparar o corpus de maneira muito específica para o software entender o que é cada unidade textual. Quem já trabalhou com o mesmo, sabe que se trata de um trabalho ingrato colocar os “***” ao longo do texto para só então poder processar os arquivos. Isso sempre me desanimou a trabalhar mais sério com o Iramuteq, apesar de ter alguns orientandos que faziam a via sacra ou que mesmo desenvolveram scripts para limpar o corpus e o preparar de maneira semiautomatizada. De toda forma, eu sentia que ainda acabava sendo impeditivo o suficiente para muitos, como eu, não o usarem no dia a dia.
Corta para o final de 2025. Já temos mais de três anos do lançamento do ChatGPT e começam a surgir softwares (harness) ou agentes de inteligência artificial para diversas tarefas, mas especialmente codificação em linguagens de programação. O primeiro exemplo mais notável foi o Claude Code da Anthropic, que ganhou forte popularidade entre programadores. Depois surgiram vários outros, como o Codex da OpenAi, o Antigravity do Google e a opção aberta OpenCode, que valoriza modelos abertos e/ou mais baratos, como as chinesas DeepSeek, Kimi, Qwen e Z.ai.
Tais harness deram, digamos, “superpoderes” aos grandes modelos de linguagem (e.g. ChatGPT, Claude, Gemini, DeepSeek etc.), pois permitiam que eles acessassem diferentes ferramentas para tarefas diversas, como pesquisa na internet, análises de arquivos, criação de sites ou softwares online ou mantidos no computador. Eles frequentemente trabalham na linguagem de programação python, que é muito usada para diversos tipos de automações e, também, é uma das mais centrais nas análises de dados (i.e. ciência de dados).
Dado este cenário, no final de 2025, eu achava que já havia tecnologia para fazer meu próprio clone do Iramuteq, que inicialmente seria um projeto privado. Após MUITAS tentativas e especialmente MUITOS erros, fui chegando a primeira versão do LexiAnalyst, nome original do software, ou não tão original, já que foi nomeado por uma IA. Foi um processo bastante sofrido, mas de bastante aprendizado em termos de como funciona o tal vibe coding, quando você deixa todas as escolhas de programação para os próprios agentes de IA.
Não dominando a programação, cada ajuste levava algum tempo para ser feito e frequentemente gerava algum novo problema. Em especial, fiz tudo que foi possível para diminuir a barreira de entrada, então tentei fazê-lo ser capaz de importar múltiplos formatos (.txt, .pdf, .docx, .odt, .xlsx, .csv, .md e .zip) e que o próprio software fizesse a preparação do corpus automaticamente (limpeza, normalização e estruturação para análise).
Em algum ponto, fiquei satisfeito e ao mesmo tempo fatigado com o processo. Pedi aos agentes para fazer uma versão que pudesse ser instalada no Windows de outras pessoas, para pedir opinião dos colegas se era um projeto interessante ou não para continuar investindo meu tempo (outro processo bem mais longo e difícil que o esperado). Os feedbacks, como é usual, foram poucos, mas razoavelmente positivos.
Como alguém que continua vendo uma série que caiu muito de qualidade, pois “já investi muito tempo da minha vida”, coloquei-me a melhorar o software para ir além do Iramuteq, acrescentando outros testes de processamento de linguagem natural mais clássicos e descritivos. Notei que os agentes de IA eram muito melhores para se basearem em projetos prontos que desenhar outros do zero, então passei a olhar para projetos similares abertos na rede.
Então, depois de conseguir a base dos testes de Reinert (AFC e CHD) e de similitude do iramuteq, comecei a explorar outras técnicas como Kwic, nuvem de palavras, análise de sentimento, análise de emoções, bigramas e trigramas, árvores de palavras, heatmaps, LDA (e o Yake, que é derivado), co-ocorrência de palavras e até uma análise textual em rede similar ao feito por softwares de redes, como o Gephi. Neste processo, tentei replicar testes e preparação de corpus feitos pelos excelentes acR, cleantex, gglcloud, Lexos, OpenRefine, Syuzhet, Tall, Textometrica, Voyant Tools, wordcloud.
Depois de quase 6 meses de investimento e mais de 300 horas “brigando” com agentes de IA para mudar cores e melhorar gráficos, cheguei a uma solução suficientemente boa, incluindo um novo visual, um tutorial e longos arquivos de ajuda, além de mais de 20 testes de análise automatizada para serem realizados, a possibilidade de exportar o corpus limpo e normalizado (e usar inclusive no Iramuteq e similares), poder salvar o projeto do trabalho.
Está longe de ser um software profissional, mas me parece ser exatamente o que eu queria no começo, que é um software funcional e especialmente dedicados aos colegas que ainda não dominam tais técnicas de análise de dados e que poderão sofistificar suas pesquisas, enquanto, espero, possam passar a ter interesse em dominar tais técnicas e mesmo a criar soluções similares para suas necessidades.
Tive uma ajuda muito direta do Nilton Sainz da UFPR, para fazer o módulo de análise textual baseado no gephi e colaboração direta de Anderson Henrique (USP), Dalson Figueiredo (UFPE), Ian Batista (Carter Center), Leonardo Nascimento (LabUFBA), que são os especialistas em análise automatizada de fato. Além de vários integrantes do Laboratório Interdisciplinar de Inteligência Artificial para métodos, democracia e sociedade (<labiia_lex>), que acabou inspirando o nome final. Quero agradecer imensamente a todos eles e todos os testadores iniciais.
O <labiia_lex> v. 1.0.9 foi totalmente desenvolvido por agentes de IA e pode conter erros. Os agentes utilizados foram ChatGPT Codex (v. 5.2, 5.3, 5.4, 5.5), Claude Code Opus (v. 4.5, 4.6, 4.7, 4.8), Claude Sonnet 4.6, Antigravity (Gemini 3.1 Pro), OpenCode (Kimi 2.5 e 2.6, DeepSeek v4pro, GLM 5.1). E com nova ajuda dos agentes de IA, coloquei o código aberto em licença GPL-3.0, a base da mesma usada pelo Iramuteq em meu repositório, o que significa que ele está aberto para reprodução, mas que é necessário manter o código fonte aberto.
No momento, ele só está disponível para análise em português e para sistema operacional Windows.
