Estamos há meses envolvidos na crise da memória, mas talvez haja uma saída. Na semana passada, o Google Research publicou um estudo no qual revela uma técnica chamada TurboQuant. Trata-se de um algoritmo de compressão capaz de reduzir a memória de trabalho dos modelos de IA em até seis vezes, sem perda perceptível de qualidade ou desempenho. Notícias fantásticas para os usuários finais, que veem uma luz no fim do túnel, mas terríveis para as fabricantes dos chips de RAM, para os quais essa era dourada pode estar chegando ao fim.
Para entender o TurboQuant, é preciso entender o que é essa memória que ele consegue comprimir. Quando um modelo de linguagem processa uma conversa longa, ele precisa lembrar o contexto. Cada token processado fica armazenado no chamado KV cache, uma espécie de memória de trabalho que cresce à medida que conversamos. Quanto mais longa for a conversa, mais memória o modelo precisa.
Esse é um dos principais gargalos na etapa de inferência de IA (ou seja, quando usamos os modelos) e também um dos motivos pelos quais os centros de dados precisam de tanta memória RAM ou HBM. O TurboQuant utiliza um método de quantização vetorial nesse cache para conseguir comprimi-lo mantendo a precisão do modelo.
Seis vezes menos memória
O artigo do Google Research afirma que esse método é capaz de reduzir a KV cache em seis vezes, sem diferença perceptível no desempenho em conversas longas. Os pesquisadores apresentarão seus resultados em um evento no mês que vem e ...
Matérias relacionadas
A IA é tão boa jogando xadrez que está mudando a forma como os próprios humanos jogam
Oferta 4.4: Monitor Gamer Samsung 24" 120 Hz surge por menos de R$450 no Mercado Livre