Nomos-1 da Nous Research alcança 2º lugar no Putnam 2025

Nomos-1 da Nous Research alcança 2º lugar no Putnam 2025

Navegue por tópicos

A Nous Research lançou o Nomos-1, IA open-source que marcou 87/120 no exame Putnam 2025, competindo com quase 4 mil humanos.

  • Modelo híbrido de 30B parâmetros com new reasoning harness
  • Segunda melhor pontuação estimada do exame
  • Open-source disponível no Hugging Face para pesquisadores
  • Custo computacional alto limita uso em larga escala

Lide

A Nous Research, em parceria com a Hillclimb AI e pesquisadores independentes, lançou recentemente o Nomos-1, uma inteligência artificial open-source com 30 bilhões de parâmetros focada em resolução de problemas matemáticos complexos. O modelo alcançou uma pontuação de 87 de 120 no William Lowell Putnam Mathematical Competition 2025, uma das provas universitárias mais desafiadoras do mundo, disputada por quase 4 mil estudantes.

Detalhes Técnicos e Inovação

  • O Nomos-1 utiliza um sistema híbrido derivado do modelo Qwen3 e foi extensivamente treinado com provas do Putnam, priorizando rigor lógico sobre velocidade.
  • Inovação chave: Reasoning Harness, uma ferramenta que estrutura o processo de resolução em duas fases — múltiplos agentes autônomos resolvem e criticam os problemas; depois, um sistema de torneio com eliminação dupla seleciona a solução final.
  • Parâmetros ajustados (temperature=0.6, top_p=0.95) balanceiam criatividade e rigor durante a argumentação lógica.

Desempenho Relevante

  • Com 87 pontos, o Nomos-1 teria ficado em 2º lugar no Putnam 2024, perto do vencedor que marcou 92 pontos.
  • A pontuação média humana é de 20 a 30 pontos, e o modelo acertou nota máxima em 8 dos 12 problemas.
  • O modelo supera versões anteriores, como Qwen3 (24 pontos) e GPT-4 Turbo (<15 pontos), com uma vantagem de mais de 200% em relação ao modelo base.

Limitações e Controvérsias

  • O treinamento em conjuntos anteriores do Putnam gera críticas sobre possível extrapolação de padrões ao invés de criatividade matemática genuína.
  • O custo computacional para resolução é elevado, cerca de US$ 1,20 por prova, inviabilizando uso massivo.
  • O sistema pode falhar em problemas com enunciados ambíguos ou menos estruturados.
  • Preocupações éticas apontam risco de dependência de IAs por estudantes, ameaçando a formação do raciocínio crítico matemático.

Impactos Fututos e Usos Práticos

  • A ferramenta é aberta para pesquisadores, exigindo infraestrutura robusta (GPU ≥48GB VRAM).
  • Aplica-se em P&D financeiro para modelagem quantitativa com suporte adicional para cálculo simbólico.
  • Embora IA avance, humanos seguem imprescindíveis para criação e interpretação dos problemas.

Modelo Nomos-1 da Nous Research

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.