Startup Poetiq supera Google no benchmark ARC-AGI-2 com abordagem inovadora

Startup Poetiq supera Google no benchmark ARC-AGI-2 com abordagem inovadora

Navegue por tópicos

A startup Poetiq conquistou um avanço significativo em inteligência artificial ao ultrapassar o modelo Gemini 3 Deep Think da Google no benchmark ARC-AGI-2. A seguir, os principais pontos:

  • Poetiq alcançou 54% de precisão a um custo inferior a US$ 31 por problema, contra 45,1% e quase US$ 77 da Google.
  • O sistema utiliza um modelo meta para orquestrar e otimizar respostas de modelos já existentes.
  • Esta é a primeira vez que um sistema ultrapassa a barreira dos 50% no benchmark ARC-AGI-2.
  • A abordagem destaca um novo caminho para avanços em inteligência artificial geral sem necessidade de treinar modelos do zero.

Startup Poetiq redefine limites da inteligência artificial geral

A startup Poetiq, composta por seis pesquisadores e engenheiros com ampla experiência prévia no Google DeepMind, anunciou em novembro de 2025 a superação do benchmark ARC-AGI-2 com 54% de precisão, eliminando a liderança anterior do modelo Gemini 3 Deep Think da Google, que atingiu 45,1%.

O benchmark é um padrão de avaliação para inteligência artificial geral (AGI), focado em raciocínio abstrato visual, considerado uma métrica crucial para medir capacidades cognitivas além do conhecimento factual. Esta é a primeira vez que qualquer sistema ultrapassa significativamente a barreira dos 50% neste teste.

Abordagem inovadora e eficiente

  • A Poetiq adotou uma estratégia diferente das gigantes tech, usando um sistema meta que orquestra e aperfeiçoa modelos existentes, como Gemini 3 Pro, GPT-5.1 e Claude Opus 4.5, ao invés de treinar modelos do zero.
  • Este sistema otimiza o que perguntar, a sequência de consultas e a montagem das respostas, permitindo resolver problemas complexos com menos de duas chamadas ao modelo em média.
  • A eficiência operacional se traduz em um custo médio de US$ 30,57 por problema, menos da metade do custo do modelo da Google (US$ 77,16) para desempenho superior.

Reconhecimento e limitações

  • O resultado oficial foi confirmado pelo ARC Prize em dezembro de 2025.
  • Embora a Poetiq afirme que partes do sistema são open-source, detalhes completos permanecem proprietários.
  • O benchmark ARC-AGI-2, apesar de fundamental para avaliar raciocínio abstrato, não abrange todas as capacidades de inteligência artificial geral, como compreensão contextual e linguagem natural.
  • A estratégia depende de modelos externos e seu uso contínuo pode encarecer aplicações em larga escala.

Impactos para o setor de tecnologia

  • Este avanço demonstra que startups podem competir com gigantes por meio de engenharia inteligente, não apenas pela escala computacional.
  • A tendência aponta para sistemas híbridos, combinando modelos base com camadas inteligentes de coordenação, reduzindo a necessidade de modelos monstruosos.
  • Embora ainda distantes da AGI plena, os resultados indicam um caminho acelerado para novas soluções em inteligência artificial.
Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.