A Anthropic acaba de lançar Claude Sonnet 5 com um objetivo claro: não ultrapassar nenhum limite
O modelo é inegavelmente melhor que seu antecessor e se aproxima do Opus 4.8 em alguns testes; No entanto, trata-se, acima de tudo, de um projeto conservador e pouco ambicioso
A Anthropic anunciou ontem o lançamento do Claude Sonnet 5, um modelo mais "normal" e conservador do que os que estamos acostumados a ver da empresa. Ele também é mais barato, o que o torna interessante para uso em agentes de IA que consomem muitos tokens. No entanto, o aspecto mais marcante do Sonnet 5 é que ele é um modelo especialmente limitado em uma área crucial: a cibersegurança.
O Sonnet 5 foi projetado para se comportar bem
A Anthropic o define como "o modelo Sonnet mais agente até o momento" e destaca suas melhorias no uso de ferramentas como navegadores e terminais.
Mas, acima de tudo, enfatiza como o Sonnet 5 se comporta melhor do que o Sonnet 4.6 em termos de "comportamento indesejado" e é mais seguro de usar. O "System Card" do modelo também confirma que este é um modelo que não busca ultrapassar limites.
Ele não é muito útil para encontrar vulnerabilidades
Principalmente, a Anthropic deixa claro que "ele tem uma capacidade muito menor do que nossos modelos Opus atuais para executar tarefas de cibersegurança". Isso não é por acaso: a Anthropic teve tantos problemas com o Mythos e o Fable 5 que provavelmente quis lançar um modelo "sem riscos", mesmo que isso significasse torná-lo mais limitado.
Os benchmarks são promissores, mas não surpreendentes
Testes internos mostram que o Sonnet 5 representa um salto qualitativo significativo em comparação com o Sonnet 4.6 e se aproxima bastante do Opus 4.8 em programação agentiva e no uso das ferramentas mencionadas (terminal, ...
Matérias relacionadas
Vini Jr ou Haaland? O que a astrologia revela sobre o duelo que vai parar o Brasil
O exército de robôs humanoides que montou 3 mil tablets em apenas 10 horas na China
Comentários
Os comentários são de responsabilidade exclusiva de seus autores e não representam a opinião deste site. Se achar algo que viole os termos de uso, denuncie.