Startup Poetiq supera Google no benchmark ARC-AGI-2 com abordagem inovadora

Maicon Ramos
08/12/2025
3 minutos de leitura

A startup Poetiq conquistou um avanço significativo em inteligência artificial ao ultrapassar o modelo Gemini 3 Deep Think da Google no benchmark ARC-AGI-2. A seguir, os principais pontos:

Poetiq alcançou 54% de precisão a um custo inferior a US$ 31 por problema, contra 45,1% e quase US$ 77 da Google.
O sistema utiliza um modelo meta para orquestrar e otimizar respostas de modelos já existentes.
Esta é a primeira vez que um sistema ultrapassa a barreira dos 50% no benchmark ARC-AGI-2.
A abordagem destaca um novo caminho para avanços em inteligência artificial geral sem necessidade de treinar modelos do zero.

Startup Poetiq redefine limites da inteligência artificial geral

A startup Poetiq, composta por seis pesquisadores e engenheiros com ampla experiência prévia no Google DeepMind, anunciou em novembro de 2025 a superação do benchmark ARC-AGI-2 com 54% de precisão, eliminando a liderança anterior do modelo Gemini 3 Deep Think da Google, que atingiu 45,1%.

O benchmark é um padrão de avaliação para inteligência artificial geral (AGI), focado em raciocínio abstrato visual, considerado uma métrica crucial para medir capacidades cognitivas além do conhecimento factual. Esta é a primeira vez que qualquer sistema ultrapassa significativamente a barreira dos 50% neste teste.

Abordagem inovadora e eficiente

A Poetiq adotou uma estratégia diferente das gigantes tech, usando um sistema meta que orquestra e aperfeiçoa modelos existentes, como Gemini 3 Pro, GPT-5.1 e Claude Opus 4.5, ao invés de treinar modelos do zero.
Este sistema otimiza o que perguntar, a sequência de consultas e a montagem das respostas, permitindo resolver problemas complexos com menos de duas chamadas ao modelo em média.
A eficiência operacional se traduz em um custo médio de US$ 30,57 por problema, menos da metade do custo do modelo da Google (US$ 77,16) para desempenho superior.

Reconhecimento e limitações

O resultado oficial foi confirmado pelo ARC Prize em dezembro de 2025.
Embora a Poetiq afirme que partes do sistema são open-source, detalhes completos permanecem proprietários.
O benchmark ARC-AGI-2, apesar de fundamental para avaliar raciocínio abstrato, não abrange todas as capacidades de inteligência artificial geral, como compreensão contextual e linguagem natural.
A estratégia depende de modelos externos e seu uso contínuo pode encarecer aplicações em larga escala.

Impactos para o setor de tecnologia

Este avanço demonstra que startups podem competir com gigantes por meio de engenharia inteligente, não apenas pela escala computacional.
A tendência aponta para sistemas híbridos, combinando modelos base com camadas inteligentes de coordenação, reduzindo a necessidade de modelos monstruosos.
Embora ainda distantes da AGI plena, os resultados indicam um caminho acelerado para novas soluções em inteligência artificial.

Treinamentos

Startup Poetiq supera Google no benchmark ARC-AGI-2 com abordagem inovadora

Navegue por tópicos

Startup Poetiq redefine limites da inteligência artificial geral

Abordagem inovadora e eficiente

Reconhecimento e limitações

Impactos para o setor de tecnologia

Maicon Ramos

OpenAI Codex cria jogo completo com um único prompt estruturado

IA Mais que Dobra Produção de Código, mas Ganhos São Desiguais

Apple Renova Siri com IA do Google Gemini para Competir com ChatGPT

Anthropic Lança Claude Opus 4.8 e Desafia OpenAI

Guia ensina a treinar IA para editar no seu estilo

AWS destaca bases sólidas para escalar agentic AI corporativo

Categorias

Soluções

Inscreva-se em nossa newsletter