ChatGPT ganha assistente de voz multimodal com tradução em tempo real

A OpenAI apresentou uma atualização do ChatGPT que adicionou ao app uma assistente de voz estilo Google e Siri capaz de interpretar conteúdos em diferentes formatos — como fotos, imagens e códigos de programação — e responder aos comandos como uma conversa natural.

Na apresentação Spring Update, desta segunda-feira (13), a empresa destacou a capacidade do modelo de linguagem de captar emoções e expressas variações no tom de voz.

Assistente de voz multimodal

A nova assistente de voz do ChatGPT foi apresentada pelos demonstradores Mark Chen e Barret Zoph durante o evento de divulgação da OpenAI. No palco, ao lado da diretora de tecnologia da empresa, Mira Murati, eles mostraram exemplos de como as novas capacidades do modelo preparam o app da OpenAI para disputar a próxima fase da corrida de IA — a dos assistentes virtuais ainda mais inteligentes.

A dupla destacou que a IA consegue responder às solicitações com mais velocidade, o que elimina o atraso entre o envio do comando e a resposta — o que permite interagir com a ferramenta como se fosse uma conversa.

Além disso, não é preciso mais esperar a IA terminar uma resposta para fazer uma nova pergunta, pois é possível interromper o modelo a qualquer momento para mudar o rumo da prosa e enviar novos comandos.

Na apresentação, a dupla de desenvolvedores da OpenAI demonstrou também as habilidades da assistente de voz do ChatGPT de compreender vários formatos ao mesmo tempo.

check it out: pic.twitter.com/eDvHseLngy

— Sam Altman (@sama) May 13, 2024

Chen e Zoph usaram a IA para resolver problemas matemáticos e analisar códigos de programação enviados no chatbot. A assistente foi capaz de identificar a foto de uma equação matemática e responder como solucionar o problema com dicas passo a passo.

A ferramenta de voz do ChatGPT foi usada também para analisar a emoção dos desenvolvedores a partir do tom de voz e do ritmo de respiração, bem como criar um conto de ficção com diferentes formas de dramatização. Além de captar e expressar emoções, a IA foi capaz de fazer uma versão musical cantada da história.

Por fim, a equipe demonstrou ainda como a assistente de voz pode ser utilizada para realizar tradução em tempo real entre diferentes línguas. Ao ser desafiada para traduzir entre três línguas ao mesmo tempo, a IA brincou que estava pronta para a tarefa em italiano.

Quando chega?

A OpenAI informou que a nova capacidade multimodal da função de voz no ChatGPT será lançada nas próximas semanas para todo o público.

Trending no Canaltech:

ChatGPT ganha assistente de voz multimodal com tradução em tempo real

OpenAI apresenta assistente de voz do ChatGPT com suporte multimodal, capacidade de interação em tempo real e compreensão de emoções

Fases da Lua | Confira o calendário lunar de junho

Pesquisadores descobrem nova espécie de dinossauro de 390 kg na África

Peixe do Juízo Final? O que a ciência diz sobre a lenda do animal que "prevê desastres"

Assistente de voz multimodal

Quando chega?

Confira também:

Recomendado para você

Mais Lidas

Palmeiras enfrenta o Botafogo nas oitavas da Libertadores; confira duelos

Sem barriga: 3 exercícios que acabam com a gordura abdominal

Cantor sertanejo e esposa anunciam morte de filho: 'Peito dilacerado'

Além do nocaute: Popó aciona Justiça contra Kléber Bambam

Sandy reage a vídeo de Lucas Lima no São João da Thay e causa polêmica entre internautas: 'Sem senso de humor'

Mega-Sena: ninguém acerta e prêmio acumula em R$ 100 milhões; confira as dezenas

Após polêmicas de Davi, Mani Reggo perde mais de 500 mil em prejuízo: 'Encostada'

Adriane Galisteu leva filho de 13 anos para Parada LGBT+ de São Paulo e revela motivo

'Doeu não poder falar', diz Bruna Marquezine sobre não ter promovido filme internacional devido greve

Últimas Notícias