Conheça a inteligência artificial que transforma textos em vídeos no ChatGPT

Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto

Por: Anna Gabriela Costa

16 fev 2024 - 11h00

Exibir comentários

OpenAI lança Sora, IA para gerar vídeos
Foto: OpenAI/Divulgação / Estadão

A OpenAI, empresa criadora do ChatGPT, lançou nesta quinta-feira (15) um novo sistema de inteligência artificial (IA) que gera vídeos com base em instruções de textos descritas pelos usuários. Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto.

Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e a aderência às instruções do usuário, informou a OpenAI em comunicado.

"Estamos ensinando IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real", disse a empresa.

Na apresentação da nova inteligência artificial, a OpenAI divulgou alguns vídeos criados a partir de descrições apresentadas à Sora.

"Vídeo fotorrealista em close de dois navios piratas lutando entre si enquanto navegam dentro de uma xícara de café", descreveu um exemplo.

Outra descrição de texto diz: "Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo lanoso balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao longe, luz do meio da tarde com nuvens finas e um sol alto no a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo".

Por enquanto, a ferramenta foi disponibilizada a “um número limitado de criadores”, escreveu Sam Altman, CEO da OpenAI.

A empresa também está concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback sobre como fazer com que o modelo seja mais útil para profissionais criativos.

Como funciona

O modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens que expressam emoções. Sora também pode criar várias tomadas em um único vídeo gerado que persistem com precisão os personagens e o estilo visual.

O que existia antes do Big Bang?

A empresa explica que Sora é um modelo de difusão, que gera um vídeo começando com um que se parece com ruído estático e gradualmente o transforma, removendo o ruído ao longo de várias etapas.

"Representamos vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma delas semelhante a um token no GPT. Ao unificar a forma como representamos os dados, podemos treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto".

Sora baseia-se em pesquisas anteriores em modelos DALL·E e GPT. Utiliza a técnica de recaptação do DALL·E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual.

Pontos fracos

A OpenAI admite alguns pontos fracos, como a dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito.

"Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida", disse a OpenAI.

O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.

Fonte: Redação Byte

Comentários (0)

Os comentários são de responsabilidade exclusiva de seus autores e não representam a opinião deste site. Se achar algo que viole os termos de uso, denuncie.

Galaxy S24 x Galaxy S23: vale a pena fazer o upgrade?

O médico que descobriu tratamento ao buscar cura para o próprio câncer

Isabel: a tatu-canastra brasileira que ensinou ao mundo o que se sabe sobre a espécie

Conheça a inteligência artificial que transforma textos em vídeos no ChatGPT

Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto

Galaxy S24 x Galaxy S23: vale a pena fazer o upgrade?

O médico que descobriu tratamento ao buscar cura para o próprio câncer

Isabel: a tatu-canastra brasileira que ensinou ao mundo o que se sabe sobre a espécie

Como funciona

Pontos fracos

Comentários (0)

Confira também:

Conheça nossos produtos

Mais lidas

Derrota para o Palmeiras Sub-20 aumenta pressão no departamento de futebol do Flamengo

A Honda lança um motor V3: o primeiro motor V de três cilindros da história possui um compressor elétrico e é refrigerado a água

Anvisa diz que produtos Ipê estão contaminados. Se você tem algo em casa com lotes que terminam nesse número, atenção!

Glória Pires e Orlando Morais têm decisão favorável em disputa por fazenda em Goiás

Como ver o lote do detergente Ypê após Anvisa determinar o recolhimento

O final emocionante de Bagdá em 'Três Graças': pedido de Xamã é atendido pela Globo e muda destino do personagem

Aos 9 anos, garoto entra na faculdade e sonha em ser neurocirurgião pediátrico

Ismael Galancho, nutricionista: 'Quando uma pessoa reduz os carboidratos em sua dieta, perde peso e volume rapidamente'

Real Madrid confirma traumatismo craniano de Valverde e abre processo disciplinar contra dupla

Últimas notícias

Recomendado para você