GPT 4o: O que realmente evoluiu na plataforma de IA?

Sobre o lançamento do GPT 4o e uma porção de novos demos de cair o queixo

16 mai 2024 - 06h25

Exibir comentários

Por: Alex Winetzki * / Licenciado de Homework

Resumo
Vídeo de lançamento da nova versão do GPT mostra tecnologia multimodal que entende entradas de voz, imagem e vídeo e possui latência de 0,25 segundos. GPT 4o é concorrente direto do Co-Pilot da Microsoft.

Assista abaixo o vídeo de lançamento da nova versão do GPT, vale a pena assistir a partir do minuto 10. Sobre todos os outros demos em redes sociais, vai ser um pouco mais do mesmo.

4o significa Omni. O novo modelo é multimodal, como o Gemini do Google e lançamentos recentes de outros concorrentes, o que significa que ele nativamente entende entradas (inputs) de voz, imagem e vídeo, sem precisar de 'conversores'. Estes já existiam, mas exigiam algum trabalho para equilibrar a capacidade de APIs diferentes.

Ele também traz um tempo de reação para voz inédito (chamamos de latência), ao redor de 0,25 segundos, contra 1-2 segundos de qualquer tecnologia que tínhamos anteriormente.

Essa latência é notável porque nesse curto espaço de tempo o modelo precisa entender a voz do interlocutor, processar a intenção, a resposta e sintetizar uma voz simpática. Parece evidente, até pelas palavras da Mia Murati agradecendo a Nvidia, pois havia placas de processamento dedicadas nesse demo e vai ser difícil reproduzir essa mesma velocidade nos modelos comerciais, mas é impressionante ainda assim.

A versão desktop, que consegue 'enxergar' a tela do usuário, é concorrente direto do Co-Pilot da Microsoft. O que evidencia um pouco mais a tensão que neste momento cresce entre as empresas, e parece ter resultados melhores que a versão do sócio gigante, que até agora gerou menos valor do que prometeu.

Mas, de novo, vimos apenas um demo.

Mia Murati no demo co GPT 4o
Foto: Reprodução

Do ponto de vista de core de aplicação, e vi vários gráficos e benchmarks que não interessam neste post, há pouca novidade, o que nos traz a uma outra conclusão interessante.

Chegamos a um platô de diminuição de retorno no que concerne a tecnologia das LLMs, com todas as empresas fazendo melhorias incrementais e buscando novas funcionalidades, mas sem saltos neste momento, mesmo investindo bilhões de dólares (vale ler Gary Marcus sobre isso).

O desafio continua sendo buscar aplicações que funcionem e tragam retornos sobre investimento de verdade, e é nisso que trabalhamos furiosamente por aqui.

E você, o que achou do GPT 4o? Se tiver perguntas ou comentários, adoraria respondê-los.

(*) Alex Winetzki é CEO da Woopi e diretor de P&D do Grupo Stefanini, de soluções digitais.

Homework

Por: Alex Winetzki * / Licenciado de Homework

Comentários (0)

Os comentários são de responsabilidade exclusiva de seus autores e não representam a opinião deste site. Se achar algo que viole os termos de uso, denuncie.