A solução para a crise de RAM? Google descobre novo método de compressão que diminui consideravelmente uso de memória para processos de IA

Estamos há meses envolvidos na crise da memória, mas talvez haja uma saída. Na semana passada, o Google Research publicou um estudo no qual revela uma técnica chamada TurboQuant. Trata-se de um algoritmo de compressão capaz de reduzir a memória de trabalho dos modelos de IA em até seis vezes, sem perda perceptível de qualidade ou desempenho. Notícias fantásticas para os usuários finais, que veem uma luz no fim do túnel, mas terríveis para as fabricantes dos chips de RAM, para os quais essa era dourada pode estar chegando ao fim.

Para entender o TurboQuant, é preciso entender o que é essa memória que ele consegue comprimir. Quando um modelo de linguagem processa uma conversa longa, ele precisa lembrar o contexto. Cada token processado fica armazenado no chamado KV cache, uma espécie de memória de trabalho que cresce à medida que conversamos. Quanto mais longa for a conversa, mais memória o modelo precisa.

Esse é um dos principais gargalos na etapa de inferência de IA (ou seja, quando usamos os modelos) e também um dos motivos pelos quais os centros de dados precisam de tanta memória RAM ou HBM. O TurboQuant utiliza um método de quantização vetorial nesse cache para conseguir comprimi-lo mantendo a precisão do modelo.

Seis vezes menos memória

O artigo do Google Research afirma que esse método é capaz de reduzir a KV cache em seis vezes, sem diferença perceptível no desempenho em conversas longas. Os pesquisadores apresentarão seus resultados em um evento no mês que vem e ...

Veja mais

Matérias relacionadas

A IA é tão boa jogando xadrez que está mudando a forma como os próprios humanos jogam

"Compramos qualquer coisa": lojas no Japão estão tão desesperadas por componentes de PC que aceitam qualquer coisa

Oferta 4.4: Monitor Gamer Samsung 24" 120 Hz surge por menos de R$450 no Mercado Livre

Entre todos os grandes CEOs da tecnologia, somente um não abandonou a universidade — você sabe quem é?

Antes, o problema de criar um aplicativo era escrever o código - agora, é esperar a validação da Apple

A solução para a crise de RAM? Google descobre novo método de compressão que diminui consideravelmente uso de memória para processos de IA

As implicações potenciais são tão grandes que os fabricantes de memória, que viviam um momento de ouro, despencaram na bolsa

Um dos maiores supervulcões do mundo está se reconstruindo aos poucos ele foi responsável pela erupção mais poderosa do período Holoceno

Rússia aproveitou bom tempo para dar uma volta com seus tanques - Ucrânia aproveitou para "massacrá-los"

China mostra ao mundo o que vem depois dos drones de combate: 96 drones em lançamento digno de ficção científica

Seis vezes menos memória

Confira também:

Recomendado para você

Mais Lidas

BBB26: Merreca? Solange Couto revela valor ad aposentadoria: 'Se trata de direito'

Beber água antes de dormir faz bem ou atrapalha o sono? Especialista responde

Jogador do Flamengo sofre punição pesada do STJD

Enquete parcial do BBB 26: Votalhada aponta sister como eliminada no reality

Enquete BBB 26: Marciele, Juliano Floss e Chaiany estão no Paredão; vote em quem deve sair

Convocação de Neymar vira condição para folga de servidores durante a Copa, diz prefeito

Campeão do 'BBB 24', Davi Brito perde fortuna e vira vendedor de ovos

A implicância com padre Fábio de Melo é baseada em diferentes preconceitos

Flávio Bolsonaro viajou com família para Flórida e Rio em jatinhos emprestados por empresários

Últimas Notícias