DeepSeek-Math-V2 Conquista Ouro na IMO 2025

Maicon Ramos
28/11/2025
2 minutos de leitura

DeepSeek AI, empresa chinesa, lançou em 28/11/2025 o DeepSeek-Math-V2, modelo open weights que alcançou medalha de ouro na IMO 2025 e 118/120 no Putnam 2024.

Sistema prover-verifier corrige raciocínio passo a passo.
Supera humanos em benchmarks, mas depende de compute intensivo.
Disponível no GitHub.

A DeepSeek AI, empresa chinesa de Hangzhou fundada em 2023, anunciou em 28 de novembro de 2025 o lançamento do DeepSeek-Math-V2, um modelo de IA com pesos abertos especializado em raciocínio matemático avançado. O sistema atingiu desempenho equivalente a medalha de ouro na IMO 2025, resolvendo 5 de 6 problemas, e marcou 118/120 na competição Putnam 2024, superando a melhor pontuação humana de 94.

Arquitetura Inovadora de Verificação Autônoma

O modelo usa uma estrutura dual: um prover (gerador MoE com 685 bilhões de parâmetros) propõe provas, enquanto um verifier avalia cada etapa, atribuindo scores de confiança. Um meta-verifier garante consistência. Essa abordagem, treinada com GRPO (Guided Reinforcement Learning with Proof Optimization), permite refinamento iterativo com até 128K tokens de contexto.

Segundo o MarkTechPost, o treinamento incluiu mais de 500 mil provas humanas e 2 milhões sintéticas.

Desempenho em Benchmarks

Competição	Pontuação	Contexto
Putnam 2024	118/120	Com test-time compute escalado (16x amostragem)
IMO 2025	Ouro (5/6)	~42 pontos (limite ouro: 38)
CMO 2024	Ouro	Par com melhor equipe humana
ProofBench	61,9%	Supera DeepThink (60,1%)

No modo padrão (1 amostra), cai para ~95/120 no Putnam, conforme análise do Business Analytics.

Comparação com Concorrentes

DeepMind DeepThink: Similar em IMO, mas proprietário; V2 vence em ProofBench.
GPT-5: 61,9% vs 20% no ProofBench.

O modelo está disponível no GitHub e Hugging Face, promovendo acessibilidade, como destacado pelo China Daily.

limitações e Críticas

As pontuações máximas exigem alto custo computacional: até 32 amostras e 128 verificações por problema, levando a mais de 15 minutos por questão em hardware especializado. Não é viável em tempo real.

Críticas incluem distorções em comparações humanas e falta de testes em problemas reais de engenharia. Pesquisadores notam viés em benchmarks e ausência de código de treinamento completo. A DeepSeek alerta: use como assistente, não substituto em cenários críticos.

O avanço foca na validação de processos, com potencial em educação e pesquisa, mas exige cautela prática.

Treinamentos

DeepSeek-Math-V2 Conquista Ouro na IMO 2025

Navegue por tópicos

Arquitetura Inovadora de Verificação Autônoma

Desempenho em Benchmarks

Comparação com Concorrentes

limitações e Críticas

Maicon Ramos

OpenAI Codex cria jogo completo com um único prompt estruturado

IA Mais que Dobra Produção de Código, mas Ganhos São Desiguais

Apple Renova Siri com IA do Google Gemini para Competir com ChatGPT

Anthropic Lança Claude Opus 4.8 e Desafia OpenAI

Guia ensina a treinar IA para editar no seu estilo

AWS destaca bases sólidas para escalar agentic AI corporativo

Categorias

Soluções

Inscreva-se em nossa newsletter