Google lança TurboQuant: Compressão 6x em IA sem perda de precisão

Google lança TurboQuant: Compressão 6x em IA sem perda de precisão

Navegue por tópicos

Google Research revelou o TurboQuant, algoritmo que diminui em mais de 6x o uso da memória em modelos de IA, mantendo a precisão. Ele acelera respostas em até 8 vezes nas GPUs Nvidia H100. Focado em compressão de caches KV para contextos longos, o TurboQuant é livre de retraining e otimiza custos.

  • Compressão intensa com 3 bits por valor
  • Modelos testados: Gemma, Mistral, Llama-3.1-8B, Ministral-7B
  • Resultados sólidos em benchmarks LongBench, Needle In A Haystack
  • Apresentação no ICLR 2026

Resumo da inovação

Google Research desenvolveu o TurboQuant, um algoritmo que reduz o uso de memória de modelos de IA em mais de 6 vezes com quase nenhum impacto na precisão. Esta tecnologia acelera a resposta dos modelos em até 8 vezes nas GPUs Nvidia H100 e diminui os custos ao reduzir a pegada de memória durante conversas longas e buscas vetoriais.

Como funciona o TurboQuant

  • O TurboQuant quantiza os caches KV usados na atenção dos transformers para apenas 3 bits por valor, mantendo a qualidade sem necessidade de treinamento adicional ou ajuste fino (fine-tuning).
  • Adota uma abordagem em duas etapas: PolarQuant, que converte coordenadas cartesianas para polares, e Quantized Johnson-Lindenstrauss (QJL), que aplica uma transformação de 1 bit para garantir estimativas imparciais dos produtos internos.
  • Essa combinação elimina overheads comuns em quantização tradicional e mantém precisão em tarefas complexas como question answering, geração de código e sumarização.

Resultados em benchmarks

  • Testado em modelos como Gemma, Mistral, Llama-3.1-8B-Instruct e Ministral-7B-Instruct.
  • Em LongBench, o TurboQuant iguala ou supera métodos tradicionais em todas as tarefas.
  • No benchmark Needle In A Haystack, alcança 100% de precisão até 104 mil tokens com compressão de 4x.
  • Mostra também desempenho superior em busca vetorial com recall ótimo e tempo de indexação próximo de zero comparado a outros métodos.

Impactos e limites

  • Reduz a memória necessária para janelas de contexto grandes, facilitando implementações mais econômicas e rápidas em LLMs de longo contexto.
  • Limitações incluem a dependência das GPUs Nvidia H100 para os ganhos máximos anunciados e o pouco uso em modelos gigantes comerciais, como GPT-4o, que ainda não foram publicamente testados.
  • Ausência de código aberto imediato pode atrasar a adoção ampla pela comunidade.
  • Criticas surgem sobre o custo real do overhead de memória zero em implementações práticas e generalização para diferentes tipos de dados.

Apresentação e referências

O TurboQuant foi apresentado oficialmente na conferência ICLR 2026 e detalhado no blog oficial do Google Research. Testes e análises complementares podem ser encontrados nos artigos da Tom’s Hardware e Help Net Security.

Vídeo oficial disponível:

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.