Script = https://s1.trrsf.com/update-1765905308/fe/zaz-ui-t360/_js/transition.min.js
PUBLICIDADE

Poesia consegue desativar mecanismos de segurança da inteligência artificial

21 dez 2025 - 09h10
(atualizado às 10h41)
Compartilhar
Exibir comentários

Pesquisa mostra que prompts em forma de poemas confundem modelos de IA a ponto de fazer os mecanismos de segurança falharem. Seriam os poetas os novos hackers?O resultado surpreendeu os pesquisadores do Icaro Lab, na Itália. O estudo investigava se diferentes estilos de linguagem - neste caso, prompts em forma de poemas - influenciam a capacidade dos modelos de inteligência artificial (IA) de identificar conteúdos proibidos ou perigosos. E a resposta foi simples: sim, a poesia tem impacto nisso, embora não esteja totalmente claro por quê.

Mesmo cada vez mais complexos, os modelos de inteligência artificial podem falhar se confrontados com poesia
Mesmo cada vez mais complexos, os modelos de inteligência artificial podem falhar se confrontados com poesia
Foto: DW / Deutsche Welle

Para o estudo sobre Adversarial Poetry, os pesquisadores selecionaram 1,2 mil prompts potencialmente perigosos de um banco de dados normalmente usado para testar a segurança de modelos de linguagem de IA e os transformaram em poemas. Esses chamados "prompts adversariais", geralmente escritos em prosa e não em versos, são solicitações formuladas para induzir os modelos de IA a gerar conteúdos nocivos ou indesejados que normalmente seriam bloqueados, como instruções concretas para uma ação ilegal.

Em forma de poesia, esses prompts apresentaram uma taxa de sucesso surpreendentemente alta, relata Federico Pierucci, um dos autores do estudo. Por que a poesia é tão eficiente como técnica de jailbreak - ou seja, como tentativa de contornar os mecanismos de proteção da IA - ainda é uma questão em aberto e objeto de futuras pesquisas.

Poesia como falha de segurança

O ponto de partida das investigações do Icaro Lab foi a observação de que modelos de IA podem ser confundidos quando um prompt recebe um trecho de texto manipulado e calculado matematicamente - chamado "sufixo adversarial", ou seja, um tipo de comando que pode levar a IA a contornar suas próprias regras de segurança.

Esses sufixos são criados com métodos matemáticos complexos. Os grandes desenvolvedores de IA testam seus modelos regularmente com essas técnicas para treinar e proteger seus sistemas.

"Nos perguntamos o que aconteceria se fornecêssemos à IA um texto ou prompt deliberadamente manipulado, como um sufixo adversarial", conta Pierucci. Mas não com ajuda de matemática complexa, e, sim, apenas com poemas - para "surpreender" a IA.

"Talvez um sufixo adversarial seja uma espécie de poesia para a IA. Ele a surpreende da mesma forma que a poesia, especialmente a poesia experimental, nos surpreende", explica ele. Então, veio outro questionamento: e se a poesia também surpreendesse a IA, já que normalmente os prompts não são em versos, mas em texto simples?

Os primeiros 20 prompts foram convertidos em forma de poema pessoalmente pelos pesquisadores, diz Pierucci, que é filósofo de formação. E foram os mais eficazes. Os demais foram transformados em poesia com ajuda de IA e também tiveram uma taxa de sucesso considerável, mas menor que os feitos manualmente. Os humanos ainda são, pelo que parece, os melhores poetas.

"Não tínhamos autores especializados para escrever os prompts. Fizemos isso nós mesmos, com nossas habilidades literárias limitadas. Se fôssemos melhores poetas, talvez tivéssemos alcançado 100% de sucesso", brinca.

Exemplos concretos não foram publicados no estudo por motivos de segurança.

A expressão humana como desafio

O surpreendente no estudo é que ele revela uma vulnerabilidade nos modelos de IA até então desconhecida, permitindo jailbreaks relativamente simples. Além disso, levanta questões que pedem mais investigações: o que exatamente na poesia desativa os mecanismos de segurança?

Pierucci e sua equipe têm várias hipóteses, mas ainda não podem afirmar com certeza. "Estamos conduzindo estudos científicos muito precisos para descobrir: é o verso, a rima ou a metáfora que realmente faz o trabalho nesse processo?", explica Pierucci.

Os cientistas também querem saber se outras técnicas culturais produzem resultados semelhantes. "Testamos agora um tipo de variação linguística, que é a poesia. A questão é se existem outras formas literárias, como contos. Talvez seja possível sistematizar um 'ataque' baseado em contos", diz Pierucci.

Em geral, as possibilidades de expressão humana são extremamente diversas e criativas, o que pode tornar mais difícil treinar as máquinas para lidar com isso. "É possível reescrever um texto de tantas maneiras, e nem todas são tão alarmantes quanto as originais", afirma o pesquisador. Isso pode fazer com que as funções de segurança da IA sejam contornadas.

A produção cultural na pesquisa em IA

O estudo também revela que, quando se trata de pesquisa em inteligência artificial, muitas disciplinas trabalham juntas. É o caso do Icaro Lab, que, em colaboração com a Universidade de Roma, se dedica, entre outras coisas, à segurança e ao comportamento dos sistemas de IA.

Lá, pesquisadores das áreas de engenharia, informática, linguística e filosofia trabalham lado a lado. Poetas ainda não faziam parte da equipe, mas isso não está descartado no futuro.

Pierucci está otimista em continuar a pesquisa. "Mostramos que existem formas culturais e humanas de expressão que são surpreendentemente eficazes como técnicas de jailbreak. E talvez tenhamos descoberto apenas uma delas", conta ele.

Aliás, o nome do laboratório faz referência ao mito de Ícaro. É uma figura da mitologia grega que tenta, apesar de todos os avisos, voar até o sol com asas feitas de cera e penas. O calor derrete a cera, Ícaro cai no mar e se afoga. O mito é um alerta para arrogância frente aos limites naturais.

A história também pode ser aplicada à pesquisa em IA. Ou seja, como um lembrete para não voar alto demais sem compreender os riscos e limites da inteligência artificial.

Deutsche Welle A Deutsche Welle é a emissora internacional da Alemanha e produz jornalismo independente em 30 idiomas.
Compartilhar
TAGS
Publicidade

Conheça nossos produtos

Seu Terra












Publicidade