Google lança TurboQuant: Compressão 6x em IA sem perda de precisão
-
Maicon Ramos
- 3 minutos de leitura
Navegue por tópicos
Google Research revelou o TurboQuant, algoritmo que diminui em mais de 6x o uso da memória em modelos de IA, mantendo a precisão. Ele acelera respostas em até 8 vezes nas GPUs Nvidia H100. Focado em compressão de caches KV para contextos longos, o TurboQuant é livre de retraining e otimiza custos.
- Compressão intensa com 3 bits por valor
- Modelos testados: Gemma, Mistral, Llama-3.1-8B, Ministral-7B
- Resultados sólidos em benchmarks LongBench, Needle In A Haystack
- Apresentação no ICLR 2026
Resumo da inovação
Google Research desenvolveu o TurboQuant, um algoritmo que reduz o uso de memória de modelos de IA em mais de 6 vezes com quase nenhum impacto na precisão. Esta tecnologia acelera a resposta dos modelos em até 8 vezes nas GPUs Nvidia H100 e diminui os custos ao reduzir a pegada de memória durante conversas longas e buscas vetoriais.
Como funciona o TurboQuant
- O TurboQuant quantiza os caches KV usados na atenção dos transformers para apenas 3 bits por valor, mantendo a qualidade sem necessidade de treinamento adicional ou ajuste fino (fine-tuning).
- Adota uma abordagem em duas etapas: PolarQuant, que converte coordenadas cartesianas para polares, e Quantized Johnson-Lindenstrauss (QJL), que aplica uma transformação de 1 bit para garantir estimativas imparciais dos produtos internos.
- Essa combinação elimina overheads comuns em quantização tradicional e mantém precisão em tarefas complexas como question answering, geração de código e sumarização.
Resultados em benchmarks
- Testado em modelos como Gemma, Mistral, Llama-3.1-8B-Instruct e Ministral-7B-Instruct.
- Em LongBench, o TurboQuant iguala ou supera métodos tradicionais em todas as tarefas.
- No benchmark Needle In A Haystack, alcança 100% de precisão até 104 mil tokens com compressão de 4x.
- Mostra também desempenho superior em busca vetorial com recall ótimo e tempo de indexação próximo de zero comparado a outros métodos.
Impactos e limites
- Reduz a memória necessária para janelas de contexto grandes, facilitando implementações mais econômicas e rápidas em LLMs de longo contexto.
- Limitações incluem a dependência das GPUs Nvidia H100 para os ganhos máximos anunciados e o pouco uso em modelos gigantes comerciais, como GPT-4o, que ainda não foram publicamente testados.
- Ausência de código aberto imediato pode atrasar a adoção ampla pela comunidade.
- Criticas surgem sobre o custo real do overhead de memória zero em implementações práticas e generalização para diferentes tipos de dados.
Apresentação e referências
O TurboQuant foi apresentado oficialmente na conferência ICLR 2026 e detalhado no blog oficial do Google Research. Testes e análises complementares podem ser encontrados nos artigos da Tom’s Hardware e Help Net Security.
Vídeo oficial disponível:









