Por que o ChatGPT ainda inventa fatos? OpenAI acredita ter encontrado a raiz do problema
Pesquisadores da companhia identificam que grandes modelos de linguagem inventam fatos devido ao modelos de recompensas no treinamento dos modelos
Grandes modelos de linguagem (LLMs), como o GPT-5 da OpenAI e o Claude da Anthropic, continuam a gerar informações falsas apresentadas com confiança, um fenômeno conhecido como "alucinações" — é um problema ainda sem solução no camp e que abala a confiança na tecnologia. Um estudo da OpenAI, publicado na quinta-feira, 4, aponta para a raiz do problema e possíveis soluções.
Produzido por importantes pesquisadores de IA, como Adam Kalai e Santosh S. Vempala, o artigo batizado "Hallucinations in Language Models: Causes, Consequences, and Countermeasures" (Alucinações em modelos linguísticos: causas, consequências e contramedidas, em tradução livre) aponta que o problema está diretamente ligado às métricas de avaliação usadas atualmente nos modelos de IA. Segundo o artigo, elas incentivam os modelos a arriscar respostas e fazer palpites, em vez de reconhecer quando não têm informações suficientes ou quando a resposta é incerta.
Em uma postagem no blog da empresa sobre o artigo, a OpenAI define alucinações como "declarações plausíveis, mas falsas, geradas por modelos de linguagem" e ressalta que, embora tenham ocorrido melhorias, o fenômeno "continua sendo um desafio fundamental para todos os grandes modelos de linguagem".
Para ilustrar o problema, os pesquisadores relataram que, ao perguntar a um chatbot "bem popular" sobre qual seria o título da tese de doutorado de Adam Kalai, o modelo forneceu três respostas diferentes, todas incorretas. A situação se repetiu quando perguntaram sobre seu aniversário: mais uma vez, o chatbot deu três datas diferentes, todas erradas.
A OpenAI explica que o problema está no pré-treinamento dos modelos, fase em que eles aprendem a prever a próxima palavra em uma frase, mas não recebem informações sobre se o que dizem é verdadeiro ou falso. "O modelo vê apenas exemplos de linguagem bem construída e deve se aproximar da distribuição geral de palavras", escrevem os autores. Em outras palavras, ele aprende padrões da linguagem, não a veracidade dos fatos, o que faz com que produza respostas convincentes, mas potencialmente falsas.
Os pesquisadores destacam que padrões consistentes de linguagem, como ortografia e pontuação, são assimilados com facilidade à medida que o modelo escala. Já informações menos comuns, como datas de aniversário ou detalhes específicos, tendem a gerar alucinações.
O artigo aponta que o problema não está apenas no pré-treinamento, mas também nas formas como os modelos são avaliados. Atualmente, as métricas tradicionais recompensam apenas respostas totalmente corretas e não penalizam palpites errados, o que incentiva o modelo a dar respostas arriscadas ou inventadas em vez de admitir quando não sabe ou está incerto.
Segundo os pesquisadores, o problema é parecido com testes de múltipla escolha: adivinhar pode gerar pontos, enquanto deixar a resposta em branco não dá crédito, mesmo quando a informação é incerta ou pouco conhecida pelo modelo.
A solução, de acordo com os estudiosos, é mudar as métricas de avaliação. Os modelos deveriam ser recompensados por indicar incerteza e punidos por erros cometidos com confiança excessiva, estimulando respostas mais cautelosas. Avaliações poderiam ainda dar crédito parcial quando a resposta estiver parcialmente correta ou quando o modelo comunica corretamente que não sabe.
"Se os placares principais continuarem recompensando palpites de sorte, os modelos continuarão aprendendo a adivinhar", afirmam os pesquisadores, reforçando que o alinhamento das métricas é crucial para reduzir as alucinações.
A OpenAI observa também que alguns modelos, como o Claude, têm maior consciência de sua própria incerteza, evitando afirmar informações incorretas com tanta frequência. No entanto, essa cautela também pode reduzir o número de respostas fornecidas, limitando a utilidade prática do sistema.
Os pesquisadores destacam ainda que métodos quantitativos, como o estimador Good-Turing, podem medir a quantidade de dados ausentes e ajudar a calibrar a confiança dos modelos. Esse estimador permite ao modelo ter uma noção melhor do que ainda não viu durante o treinamento, ajudando a reduzir respostas inventadas e oferecendo uma base científica para ajustes no treinamento e na avaliação.
O estudo ressalta que grandes modelos de linguagem continuam em "modo de teste", respondendo de forma binária (certo ou errado) enquanto a vida real é marcada por incertezas, complexidade e informações incompletas.
"Os humanos aprendem a valorizar a incerteza na prática, fora da escola. Modelos de linguagem, por outro lado, são treinados e avaliados principalmente por exames que penalizam a hesitação", escrevem os autores.
A OpenAI não comentou de imediato sobre o artigo junto à imprensa, mas detalhou no blog que a reformulação das métricas de avaliação é um passo necessário para que LLMs possam reduzir alucinações, aumentando a confiabilidade e utilidade prática dessas tecnologias.