Como o PDF se mostra um grande problemas para a IA? Sua estrutura também é uma ameaça para nós, pois pode carregar malwares
Alucinações e interpretações equivocadas são frequentes
Criado pela Adobe há três décadas, o PDF se tornou sinônimo de documento digital confiável. A proposta era simples: preservar a aparência de uma página impressa em qualquer dispositivo. Mas, na era da inteligência artificial, esse mesmo diferencial virou obstáculo.
Diferentemente de páginas web ou arquivos de texto simples, o PDF não é estruturado com base em lógica textual, mas em coordenadas gráficas. Cada letra é posicionada exatamente onde deve aparecer na página. Para humanos, isso garante consistência visual. Para modelos de linguagem, porém, significa dificuldade para entender a ordem correta do texto, a hierarquia de títulos ou a separação entre colunas.
O resultado são erros sutis que podem gerar interpretações equivocadas e até "alucinações", quando a IA inventa informações ao tentar resumir ou analisar documentos complexos, como artigos científicos cheios de colunas, tabelas e notas de rodapé.
Problema estaria no PDF ou na IA?
Além do desafio técnico, há também a questão da segurança. A empresa de cibersegurança Check Point aponta que cerca de um em cada cinco ataques por email envolve PDFs maliciosos, explorando a capacidade do formato de incorporar scripts e links. Ou seja, o mesmo padrão amplamente usado para contratos, pesquisas e formulários também é um vetor frequente de malware.
Enquanto a PDF Association defende que o problema está nas ferramentas de IA e não no formato, startups como a Factify apostam na criação de novos modelos de documentos pensados desde o ...
Matérias relacionadas
Ele tentou ligar um computador com 56 pilhas AA — veja o resultado por si mesmo
Os lucros da Nvidia jogam um balde de água fria em quem está esperando o estouro da bolha da IA
Comentários
As opiniões expressas nos comentários são de responsabilidade exclusiva de seus autores e não representam a opinião do Terra.