Pesquisadores lançam ChatGPT que "pensa" em português

21 mar 2026 - 09h40

(atualizado em 1/4/2026 às 07h51)

Exibir comentários

Cientistas da Universidade de Bonn, na Alemanha, desenvolvem o Tucano 2, modelo que raciocina em língua portuguesa. De código aberto, ferramenta promete mais eficiência e redução de desigualdades na IA generativa.Nos corredores da universidade da cidade de Bonn, na Alemanha, um dos mais potentes supercomputadores universitários do país, distribuído em dezenas de racks, servidores e processamento, trabalha para rodar bilhões de tokens em língua portuguesa.

Otimizado para treinar com velocidade modelos de Inteligência Artificial (IA), o cluster de computação de alta performance virou casa do Tucano 2, um "ChatGPT" que "pensa", desde sua origem, em português, língua falada por mais de 260 milhões de pessoas no mundo.

No começo deste mês, um grupo de pesquisadores da Universidade de Bonn lançou a segunda versão da série Tucano, agora disponível também em uma plataforma onde os usuários podem testá-lo. O conjunto de modelos de linguagem e bancos de dados é treinado com o maior dataset em língua portuguesa, o GigaVerbo, também inaugurado pela equipe em 2024.

O projeto faz parte da iniciativa Polyglot, financiada pelo governo alemão, que busca reduzir desigualdades no campo do Processamento de Linguagem Natural (NLP). Os avanços recentes em IA generativa têm beneficiado sobretudo línguas com muitos recursos, aponta em seu site, enquanto idiomas sub-representados acabam dependentes de "esperar e reciclar" modelos produzidos por grandes corporações, frequentemente desenvolvidos sem transparência.

"O paradigma atual do aprendizado profundo - fortemente dependente de conjuntos de dados massivos e poder de computação - ampliou involuntariamente essa lacuna, tornando mais difícil para os falantes de línguas com poucos recursos acessar e moldar tecnologias de IA que reflitam suas identidades linguísticas e culturais", afirma o Polyglot.

O diferencial de pensar em português

"O usuário está me pedindo para fazer uma lista de autores e autoras de literatura brasileira dos séculos 20 e 21. [...] Preciso garantir que eu liste nomes importantes dessa época. [...] Devo lembrar de incluir diversos estilos e regiões geográficas para dar diversidade à minha resposta. [...] É importante incluir vozes contemporâneas femininas", raciocina o Tucano 2 a uma pergunta disparada pela reportagem.

"Com todos esses elementos reunidos, agora formulo a lista completa e organizada, apresentando cada nome junto com breves descrições contextuais para enriquecer a informação fornecida", continua, antes de retornar nomes como Carlos Drummond de Andrade, Clarice Lispector, Lygia Fagundes Telles e Conceição Evaristo.

A cadeia de pensamento feita pelo Tucano 2, disponível na tela para o usuário acompanhar, é a mesma que mantém em pé plataformas comerciais conhecidas como o ChatGPT, da OpenAI, ou o chinês DeepSeek.

As ferramentas realizam um monólogo interno composto por várias etapas ao formular uma resposta. A diferença é que os produtos desenvolvidos em inglês ou chinês, por exemplo, usam tokens (que funcionam como "pedaços de palavras") em seus idiomas nativos para raciocinar e resolver tarefas complexas, antes de gerar a resposta traduzida. Já um modelo em português precisa de menos tokens para chegar a uma solução, pois o raciocínio já acontece no idioma do usuário.

"Quando você conversa com um ChatGPT, você vê palavra por palavra aparecendo na tela. Cada um daqueles pedacinhos de palavra tem um custo computacional. Quando você tem um modelo treinado especificamente para língua portuguesa, ele segmenta e produz pedacinhos de língua portuguesa de maneira mais eficiente", explica Nicholas Kluge, um dos autores do estudo.

"Em vez de precisar gerar 11 pedacinhos de palavras para a palavra 'onomatopeia', ele só precisa de, digamos, dois", completa.

Em alguns casos comparados pela pesquisa, a ferramenta lusófona demanda 30% menos tokens do que outros modelos de linguagem. Isso porque mais tokens significam mais computação, treinamento inferência mais lentos. O "atalho" linguístico, se aplicado em larga escala, pode levar até mesmo a um ganho de eficiência em uma indústria cada vez mais pressionada por sua demanda energética e altas emissões de CO2, afirma a pesquisa.

Para Kluge, o português nativo leva também a respostas mais adequadas ao usuário, incluindo a compreensão de expressões idiomáticas. "O português é uma língua muito rica, diversa, e a ideia de que o modelo que foi treinado majoritariamente em inglês vai conseguir atender todas as nuances da língua portuguesa, na minha opinião, é uma ilusão. Existem muitas melhorias a serem feitas em modelos de linguagem quando a gente os torna mais específicas para nossa língua", afirma.

Código aberto e acesso público

Para que isso seja possível, o Tucano é treinado com base em um dataset que combina leitura de conteúdo produzido por humanos com material sintético gerado por IA. O banco de dados é curado para identificar o valor educacional e o nível de toxicidade de cada documento utilizado.

Hoje, o Tucano 2 existe como um manual produzido a partir de pesquisa acadêmica, enão como um produto comercial. Isso faz com que sua interface conte com algumas limitações se comparados às ferramentas da indústria. Por exemplo, não há API para usuários conversarem com o Tucano 2 diretamente, como no ChatGPT, fazendo com que os modelos sejam rodados em suas próprias máquinas.

No entanto, o modelo em si pode ser replicado por empresas e instituições lusófonas interessadas em desenvolver suas próprias ferramentas. Toda a pesquisa, modelo, pacote de dados, ferramentas e configurações são publicados em código aberto. O objetivo é democratizar o acesso.

"Qualquer um pode reproduzir. É uma coisa extremamente útil para tanto para academia quanto para indústria. A gente fez esses modelos para, enfim, toda a cultura da língua portuguesa, não é um modelo soberano brasileiro", conclui Kluge.

Por isso, além de português, a equipe, composta ainda por Aniket Sen, Shiza Fatimah, Sophia Falk e Lucie Flek agora também avança o projeto para a construção de bancos de dados em outros idiomas, como bengali e hindi.

A Deutsche Welle é a emissora internacional da Alemanha e produz jornalismo independente em 30 idiomas.

Comentários (0)

Os comentários são de responsabilidade exclusiva de seus autores e não representam a opinião deste site. Se achar algo que viole os termos de uso, denuncie.