ChatGPT ganha assistente de voz multimodal com tradução em tempo real

OpenAI apresenta assistente de voz do ChatGPT com suporte multimodal, capacidade de interação em tempo real e compreensão de emoções

14 mai 2024 - 01h00
(atualizado às 03h48)

A OpenAI apresentou uma atualização do ChatGPT que adicionou ao app uma assistente de voz estilo Google e Siri capaz de interpretar conteúdos em diferentes formatos — como fotos, imagens e códigos de programação — e responder aos comandos como uma conversa natural.

Foto: Reprodução/OpenAI / Canaltech

Na apresentação Spring Update, desta segunda-feira (13), a empresa destacou a capacidade do modelo de linguagem de captar emoções e expressas variações no tom de voz.

Publicidade

Assistente de voz multimodal

A nova assistente de voz do ChatGPT foi apresentada pelos demonstradores Mark Chen e Barret Zoph durante o evento de divulgação da OpenAI. No palco, ao lado da diretora de tecnologia da empresa, Mira Murati, eles mostraram exemplos de como as novas capacidades do modelo preparam o app da OpenAI para disputar a próxima fase da corrida de IA — a dos assistentes virtuais ainda mais inteligentes.

A dupla destacou que a IA consegue responder às solicitações com mais velocidade, o que elimina o atraso entre o envio do comando e a resposta — o que permite interagir com a ferramenta como se fosse uma conversa.

Além disso, não é preciso mais esperar a IA terminar uma resposta para fazer uma nova pergunta, pois é possível interromper o modelo a qualquer momento para mudar o rumo da prosa e enviar novos comandos.

Na apresentação, a dupla de desenvolvedores da OpenAI demonstrou também as habilidades da assistente de voz do ChatGPT de compreender vários formatos ao mesmo tempo.

Publicidade

Chen e Zoph usaram a IA para resolver problemas matemáticos e analisar códigos de programação enviados no chatbot. A assistente foi capaz de identificar a foto de uma equação matemática e responder como solucionar o problema com dicas passo a passo.

A ferramenta de voz do ChatGPT foi usada também para analisar a emoção dos desenvolvedores a partir do tom de voz e do ritmo de respiração, bem como criar um conto de ficção com diferentes formas de dramatização. Além de captar e expressar emoções, a IA foi capaz de fazer uma versão musical cantada da história.

Por fim, a equipe demonstrou ainda como a assistente de voz pode ser utilizada para realizar tradução em tempo real entre diferentes línguas. Ao ser desafiada para traduzir entre três línguas ao mesmo tempo, a IA brincou que estava pronta para a tarefa em italiano.

Quando chega?

A OpenAI informou que a nova capacidade multimodal da função de voz no ChatGPT será lançada nas próximas semanas para todo o público.

Trending no Canaltech:

Publicidade
Curtiu? Fique por dentro das principais notícias através do nosso ZAP
Inscreva-se