Startup Poetiq supera Google no benchmark ARC-AGI-2 com abordagem inovadora
-
Maicon Ramos
- 3 minutos de leitura
Navegue por tópicos
A startup Poetiq conquistou um avanço significativo em inteligência artificial ao ultrapassar o modelo Gemini 3 Deep Think da Google no benchmark ARC-AGI-2. A seguir, os principais pontos:
- Poetiq alcançou 54% de precisão a um custo inferior a US$ 31 por problema, contra 45,1% e quase US$ 77 da Google.
- O sistema utiliza um modelo meta para orquestrar e otimizar respostas de modelos já existentes.
- Esta é a primeira vez que um sistema ultrapassa a barreira dos 50% no benchmark ARC-AGI-2.
- A abordagem destaca um novo caminho para avanços em inteligência artificial geral sem necessidade de treinar modelos do zero.
Startup Poetiq redefine limites da inteligência artificial geral
A startup Poetiq, composta por seis pesquisadores e engenheiros com ampla experiência prévia no Google DeepMind, anunciou em novembro de 2025 a superação do benchmark ARC-AGI-2 com 54% de precisão, eliminando a liderança anterior do modelo Gemini 3 Deep Think da Google, que atingiu 45,1%.
O benchmark é um padrão de avaliação para inteligência artificial geral (AGI), focado em raciocínio abstrato visual, considerado uma métrica crucial para medir capacidades cognitivas além do conhecimento factual. Esta é a primeira vez que qualquer sistema ultrapassa significativamente a barreira dos 50% neste teste.
Abordagem inovadora e eficiente
- A Poetiq adotou uma estratégia diferente das gigantes tech, usando um sistema meta que orquestra e aperfeiçoa modelos existentes, como Gemini 3 Pro, GPT-5.1 e Claude Opus 4.5, ao invés de treinar modelos do zero.
- Este sistema otimiza o que perguntar, a sequência de consultas e a montagem das respostas, permitindo resolver problemas complexos com menos de duas chamadas ao modelo em média.
- A eficiência operacional se traduz em um custo médio de US$ 30,57 por problema, menos da metade do custo do modelo da Google (US$ 77,16) para desempenho superior.
Reconhecimento e limitações
- O resultado oficial foi confirmado pelo ARC Prize em dezembro de 2025.
- Embora a Poetiq afirme que partes do sistema são open-source, detalhes completos permanecem proprietários.
- O benchmark ARC-AGI-2, apesar de fundamental para avaliar raciocínio abstrato, não abrange todas as capacidades de inteligência artificial geral, como compreensão contextual e linguagem natural.
- A estratégia depende de modelos externos e seu uso contínuo pode encarecer aplicações em larga escala.
Impactos para o setor de tecnologia
- Este avanço demonstra que startups podem competir com gigantes por meio de engenharia inteligente, não apenas pela escala computacional.
- A tendência aponta para sistemas híbridos, combinando modelos base com camadas inteligentes de coordenação, reduzindo a necessidade de modelos monstruosos.
- Embora ainda distantes da AGI plena, os resultados indicam um caminho acelerado para novas soluções em inteligência artificial.













