PUBLICIDADE

Conheça a inteligência artificial que transforma textos em vídeos no ChatGPT

Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto

16 fev 2024 - 11h00
Compartilhar
Exibir comentários
OpenAI lança Sora, IA para gerar vídeos
OpenAI lança Sora, IA para gerar vídeos
Foto: OpenAI/Divulgação / Estadão

A OpenAI, empresa criadora do ChatGPT, lançou nesta quinta-feira (15) um novo sistema de inteligência artificial (IA) que gera vídeos com base em instruções de textos descritas pelos usuários. Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto.

Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e a aderência às instruções do usuário, informou a OpenAI em comunicado. 

"Estamos ensinando IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real", disse a empresa.

Na apresentação da nova inteligência artificial, a OpenAI divulgou alguns vídeos criados a partir de descrições apresentadas à Sora.

"Vídeo fotorrealista em close de dois navios piratas lutando entre si enquanto navegam dentro de uma xícara de café", descreveu um exemplo. 

Outra descrição de texto diz: "Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo lanoso balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao longe, luz do meio da tarde com nuvens finas e um sol alto no a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo". 

Por enquanto, a ferramenta foi disponibilizada a “um número limitado de criadores”, escreveu Sam Altman, CEO da OpenAI. 

A empresa também está concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback sobre como fazer com que o modelo seja mais útil para profissionais criativos.

Como funciona

O modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens que expressam emoções. Sora também pode criar várias tomadas em um único vídeo gerado que persistem com precisão os personagens e o estilo visual.

O que existia antes do Big Bang? O que existia antes do Big Bang?

A empresa explica que Sora é um modelo de difusão, que gera um vídeo começando com um que se parece com ruído estático e gradualmente o transforma, removendo o ruído ao longo de várias etapas.

"Representamos vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma delas semelhante a um token no GPT. Ao unificar a forma como representamos os dados, podemos treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto". 

Sora baseia-se em pesquisas anteriores em modelos DALL·E e GPT. Utiliza a técnica de recaptação do DALL·E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual.

Pontos fracos

A OpenAI admite alguns pontos fracos, como a dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito.

"Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida", disse a OpenAI.

O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.

Fonte: Redação Byte
Compartilhar
TAGS
Publicidade
Publicidade