"Deepfakes" feitos com IA avançaram em 2025, e situação deve piorar em 2026 e além

Após um ano de rápidos avanços, os deepfakes estão entrando em uma nova era definida pela interação em tempo real com as pessoas.

29 dez 2025 - 09h27
Os geradores de imagens e vídeos com IA agora produzem conteúdo praticamente indistinguível de gravações reais, e tendência é que se tornem capazes de reagir em tempo real aos usuários AI-generated image by Siwei Lyu using Google Gemini 3
Os geradores de imagens e vídeos com IA agora produzem conteúdo praticamente indistinguível de gravações reais, e tendência é que se tornem capazes de reagir em tempo real aos usuários AI-generated image by Siwei Lyu using Google Gemini 3
Foto: The Conversation

Ao longo de 2025, os deepfakes melhoraram drasticamente. A qualidade de rostos, vozes e performances corporais gerados por Inteligência Artificial (IA) que imitam pessoas reais aumentou muito além do que muitos especialistas esperavam há apenas alguns anos. E eles também foram cada vez mais usados para enganar as pessoas.

Em muitos cenários cotidianos — especialmente videochamadas de baixa resolução e mídias compartilhadas em plataformas sociais —, seu realismo agora é alto o suficiente para enganar de forma confiável usuários não especialistas. Em termos práticos, as mídias sintéticas se tornaram indistinguíveis de gravações autênticas para pessoas comuns e, em alguns casos, até mesmo para instituições.

Publicidade

E esse avanço não se limita à qualidade. O volume de deepfakes em circulação cresceu explosivamente: a empresa de segurança cibernética DeepStrike estima um aumento de aproximadamente 500.000 deepfakes online em 2023 para cerca de 8 milhões em 2025, com um crescimento anual próximo a 900%.

Sou um cientista da computação que pesquisa deepfakes e outras mídias sintéticas. Do meu ponto de vista, vejo que a situação provavelmente piorará em 2026, à medida que os deepfakes se tornarem artistas sintéticos capazes de reagir às pessoas em tempo real.

Hoje praticamente qualquer pessoa pode produzir um vídeo deepfake.

Melhorias dramáticas

Várias mudanças técnicas estão por trás dessa dramática escalada. Primeiro, o realismo dos vídeos deu um salto significativo graças aos modelos de geração de vídeo projetados especificamente para manter a consistência temporal. Esses modelos produzem vídeos com movimentos coerentes, identidades consistentes das pessoas retratadas e conteúdo que faz sentido de um quadro para o outro. Os modelos separam as informações relacionadas à representação da identidade de uma pessoa das informações sobre movimento, de modo que o mesmo movimento pode ser mapeado para diferentes identidades, ou a mesma identidade pode ter vários tipos de movimentos.

Publicidade

Esses modelos produzem rostos estáveis e coerentes, sem tremulação, deformação ou distorções estruturais ao redor dos olhos e da mandíbula, que antes serviam como evidência forense confiável de deepfakes.

Em segundo lugar, a clonagem de voz ultrapassou o que eu chamaria de "limite indistinguível". Agora, bastam alguns segundos de áudio para gerar um clone convincente - completo com entonação, ritmo, ênfase, emoção, pausas e ruído de respiração naturais. Essa capacidade já está alimentando fraudes em grande escala. Alguns grandes varejistas relatam receber mais de 1.000 ligações fraudulentas geradas por IA por dia. As pistas perceptivas que antes denunciavam vozes sintéticas desapareceram em grande parte.

Em terceiro lugar, as ferramentas de produção reduziram a barreira técnica a quase zero. As atualizações do Sora 2 da OpenAI e do Veo 3 do Google, além de uma onda de startups, significam que qualquer pessoa pode descrever uma ideia e depois deixar que um grande modelo de linguagem, como o ChatGPT da OpenAI ou o Gemini do Google, redija um roteiro e gere uma mídia audiovisual sofisticada em minutos. Os agentes de IA podem automatizar todo o processo. A capacidade de gerar deepfakes coerentes e roteirizados em grande escala foi efetivamente democratizada.

Essa combinação de quantidade crescente e personagens quase indistinguíveis de seres humanos reais cria sérios desafios para a detecção de deepfakes, especialmente em um ecossistema de mídia onde a atenção das pessoas é fragmentada e o conteúdo se move mais rápido do que pode ser verificado. Já houve danos no mundo real - desde desinformação até assédio direcionado e golpes financeiros - possibilitados por deepfakes que se espalham antes que as pessoas tenham a chance de perceber o que está acontecendo.

Publicidade

O pesquisador de IA Hany Farid explica como os deepfakes funcionam e como estão ficando cada vez melhores.

O futuro é em tempo real

Olhando para o futuro, a trajetória para o próximo ano é clara: os deepfakes estão caminhando para a síntese em tempo real, capaz de produzir vídeos que se assemelham muito às nuances da aparência humana, tornando mais fácil para que escapem dos sistemas de detecção. A fronteira está mudando do realismo visual estático para a coerência temporal e comportamental: modelos que geram conteúdo ao vivo ou quase ao vivo em vez de clipes pré-renderizados.

A modelagem de identidade está convergindo para sistemas unificados que capturam não apenas a aparência de uma pessoa, mas também como ela se move, soa e fala em diferentes contextos. O resultado vai além de "isso se parece com a pessoa X" para "isso se comporta como a pessoa X ao longo do tempo". Espero que todos os participantes em uma videochamada possa ser sintetizados em tempo real; atores interativos alimentados por IA cujos rostos, vozes e maneirismos se adaptem instantaneamente a um comando; e golpistas usando avatares responsivos em vez de vídeos fixos.

À medida que esses recursos amadurecem, a diferença perceptiva entre mídia humana sintética e autêntica continuará a diminuir. A linha de defesa significativa se afastará do julgamento humano. Em vez disso, dependerá de proteções no nível da infraestrutura. Isso inclui proveniência segura, como mídia assinada criptograficamente, e ferramentas de conteúdo de IA que usam as especificações da Coalition for Content Provenance and Authenticity. Também dependerá de ferramentas forenses multimodais, como o Deepfake-o-Meter do meu laboratório.

Simplesmente olhar mais atentamente para os pixels das imagens não será mais suficiente.

The Conversation
Foto: The Conversation

Siwei Lyu não presta consultoria, trabalha, possui ações ou recebe financiamento de qualquer empresa ou organização que poderia se beneficiar com a publicação deste artigo e não revelou nenhum vínculo relevante além de seu cargo acadêmico.

Publicidade
Este artigo foi publicado no The Conversation Brasil e reproduzido aqui sob a licença Creative Commons
Fique por dentro das principais notícias
Ativar notificações