Conheça a inteligência artificial que transforma textos em vídeos no ChatGPT
Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto
A OpenAI, empresa criadora do ChatGPT, lançou nesta quinta-feira (15) um novo sistema de inteligência artificial (IA) que gera vídeos com base em instruções de textos descritas pelos usuários. Chamada de "Sora", a nova ferramenta pode criar cenas realistas e imaginativas a partir dos comandos de texto.
Sora pode gerar vídeos de até um minuto, mantendo a qualidade visual e a aderência às instruções do usuário, informou a OpenAI em comunicado.
"Estamos ensinando IA a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real", disse a empresa.
Na apresentação da nova inteligência artificial, a OpenAI divulgou alguns vídeos criados a partir de descrições apresentadas à Sora.
"Vídeo fotorrealista em close de dois navios piratas lutando entre si enquanto navegam dentro de uma xícara de café", descreveu um exemplo.
Outra descrição de texto diz: "Vários mamutes peludos gigantes se aproximam caminhando por um prado nevado, seu longo pelo lanoso balança levemente ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao longe, luz do meio da tarde com nuvens finas e um sol alto no a distância cria um brilho quente, a visão baixa da câmera é impressionante, capturando o grande mamífero peludo com uma bela fotografia e profundidade de campo".
Por enquanto, a ferramenta foi disponibilizada a “um número limitado de criadores”, escreveu Sam Altman, CEO da OpenAI.
A empresa também está concedendo acesso a vários artistas visuais, designers e cineastas para obter feedback sobre como fazer com que o modelo seja mais útil para profissionais criativos.
Como funciona
O modelo tem um profundo conhecimento da linguagem, o que lhe permite interpretar com precisão as instruções e gerar personagens que expressam emoções. Sora também pode criar várias tomadas em um único vídeo gerado que persistem com precisão os personagens e o estilo visual.
A empresa explica que Sora é um modelo de difusão, que gera um vídeo começando com um que se parece com ruído estático e gradualmente o transforma, removendo o ruído ao longo de várias etapas.
"Representamos vídeos e imagens como coleções de unidades menores de dados chamadas patches, cada uma delas semelhante a um token no GPT. Ao unificar a forma como representamos os dados, podemos treinar transformadores de difusão em uma gama mais ampla de dados visuais do que era possível antes, abrangendo diferentes durações, resoluções e proporções de aspecto".
Sora baseia-se em pesquisas anteriores em modelos DALL·E e GPT. Utiliza a técnica de recaptação do DALL·E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual.
Pontos fracos
A OpenAI admite alguns pontos fracos, como a dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito.
"Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida", disse a OpenAI.
O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.
Comentários
Os comentários são de responsabilidade exclusiva de seus autores e não representam a opinião deste site. Se achar algo que viole os termos de uso, denuncie.