Script = https://s1.trrsf.com/update-1770314720/fe/zaz-ui-t360/_js/transition.min.js
PUBLICIDADE

Pesquisadores lançam ChatGPT que "pensa" em português

21 mar 2026 - 09h40
Compartilhar
Exibir comentários

Cientistas da Universidade de Bonn, na Alemanha, testam o Tucano 2, modelo que raciocina nativamente em língua portuguesa. De código aberto, ferramenta promete mais eficiência e redução de desigualdades na IA generativaNos corredores da universidade da cidade de Bonn, na Alemanha, um dos mais potentes supercomputadores universitários do país, distribuído em dezenas de racks, centenas de servidores e milhares de unidades de processamento, trabalha para rodar bilhões de tokens em língua portuguesa.

Otimizado para treinar com velocidade modelos de Inteligência Artificial (IA), o cluster de computação de alta performance virou casa do Tucano 2, um "ChatGPT" que "pensa", desde sua origem, em português, língua falada por mais de 260 milhões de pessoas no mundo.

No começo deste mês, um grupo de pesquisadores da Universidade de Bonn lançou sua primeira plataforma de teste do Tucano 2. O modelo de linguagem é treinado com base no maior banco de dados em língua portuguesa para IA, o GigaVerbo, também produzido pela equipe em 2024.

O projeto faz parte da iniciativa Polyglot, financiada pelo governo alemão, que busca reduzir desigualdades no campo do Processamento de Linguagem Natural (NLP). Os avanços recentes em IA generativa têm beneficiado sobretudo línguas com muitos recursos, aponta em seu site, enquanto idiomas sub-representados acabam dependentes de "esperar e reciclar" modelos produzidos por grandes corporações, frequentemente desenvolvidos sem transparência.

"O paradigma atual do aprendizado profundo - fortemente dependente de conjuntos de dados massivos e poder de computação - ampliou involuntariamente essa lacuna, tornando mais difícil para os falantes de línguas com poucos recursos acessar e moldar tecnologias de IA que reflitam suas identidades linguísticas e culturais", afirma o Polyglot.

O diferencial de pensar em português

"O usuário está me pedindo para fazer uma lista de autores e autoras de literatura brasileira dos séculos 20 e 21. [...] Preciso garantir que eu liste nomes importantes dessa época. [...] Devo lembrar de incluir diversos estilos e regiões geográficas para dar diversidade à minha resposta. [...] É importante incluir vozes contemporâneas femininas", raciocina o Tucano 2 a uma pergunta disparada pela reportagem.

"Com todos esses elementos reunidos, agora formulo a lista completa e organizada, apresentando cada nome junto com breves descrições contextuais para enriquecer a informação fornecida", continua, antes de retornar nomes como Carlos Drummond de Andrade, Clarice Lispector, Lygia Fagundes Telles e Conceição Evaristo.

A cadeia de pensamento feita pelo Tucano 2, disponível na tela para o usuário acompanhar, é a mesma que mantém em pé plataformas comerciais conhecidas como o ChatGPT, da OpenAI, ou o chinês DeepSeek.

Antes de responder uma pergunta, as ferramentas fazem um monólogo interno que envolve vários passos. A diferença é que os produtos desenvolvidos em inglês ou chinês, por exemplo, usam tokens (que funcionam como "pedaços de palavras") em seus idiomas nativos para raciocinar e resolver tarefas complexas antes de traduzir e retornar ao usuário. Já um modelo em português precisa de menos tokens para gerar uma solução, pois o raciocínio já acontece no idioma do usuário.

"Quando você conversa com um ChatGPT, você vê palavra por palavra aparecendo na tela. Cada um daqueles pedacinhos de palavra tem um custo computacional. Quando você tem um modelo treinado especificamente para língua portuguesa, ele segmenta e produz pedacinhos de língua portuguesa de maneira mais eficiente", explica Nicholas Kluge, um dos autores do estudo.

"Em vez de precisar gerar 50 pedacinhos de palavras para a palavra 'onomatopeia', ele só precisa de dois", completa.

Em alguns casos comparados pela pesquisa, a ferramenta lusófona demanda 30% menos tokens do que outros modelos de linguagem. Isso porque mais tokens significam mais computação, treinamento inferência mais lentos. O "atalho" linguístico, se aplicado em larga escala, pode levar até mesmo a um ganho de eficiência em uma indústria cada vez mais pressionada por sua demanda energética e altas emissões de CO2, afirma a pesquisa.

Para Kluge, o português nativo leva também a respostas mais adequadas ao usuário, incluindo a compreensão de expressões idiomáticas. "O português, ele é uma língua muito rica, diversa, e a ideia de que o modelo que foi treinado majoritariamente em inglês vai conseguir atender todas as nuances da língua portuguesa, na minha opinião, é uma ilusão. Existem muitas melhorias a serem feitas em modelos de linguagem quando a gente os torna mais específicas para nossa língua", afirma.

Código aberto e acesso público

Para que isso seja possível, o Tucano é treinado com base em um dataset que combina leitura de conteúdo produzido por humanos com material sintético gerado por IA. O banco de dados é curado para identificar o valor educacional e o nível de toxicidade de cada documento utilizado.

Hoje, o Tucano 2 existe como um manual produzido a partir de pesquisa acadêmica, enão como um produto comercial. Isso faz com que sua interface, sediada no supercomputador "Marvin", da Universidade de Bonn, conte com algumas limitações se comparados às ferramentas da indústria. Por exemplo, não há conexão automática à internet e incorre em um teto de uso.

No entanto, o modelo em si pode ser replicado por empresas e instituições lusófonas interessadas em desenvolver suas próprias ferramentas em uma infraestrutura de maior parte. Toda a pesquisa, modelo, pacote de dados, ferramentas e configurações são publicados em código aberto. O objetivo é democratizar o acesso.

"Qualquer um pode reproduzir. É uma coisa extremamente útil para tanto para academia quanto para indústria. A gente fez esses modelos para, enfim, toda a cultura da língua portuguesa, não é um modelo soberano brasileiro", conclui Kluge.

Por isso, além de português, a equipe, composta ainda por Aniket Sen, Shiza Fatimah, Sophia Falk e Lucie Flek agora também avança o projeto para a construção de bancos de dados em outros idiomas, como bengali e hindi.

Deutsche Welle A Deutsche Welle é a emissora internacional da Alemanha e produz jornalismo independente em 30 idiomas.
Compartilhar
TAGS
Publicidade

Conheça nossos produtos

Seu Terra












Publicidade