DeepSeek-Math-V2 Conquista Ouro na IMO 2025
-
Maicon Ramos
- 2 minutos de leitura
Navegue por tópicos
DeepSeek AI, empresa chinesa, lançou em 28/11/2025 o DeepSeek-Math-V2, modelo open weights que alcançou medalha de ouro na IMO 2025 e 118/120 no Putnam 2024.
- Sistema prover-verifier corrige raciocínio passo a passo.
- Supera humanos em benchmarks, mas depende de compute intensivo.
- Disponível no GitHub.
A DeepSeek AI, empresa chinesa de Hangzhou fundada em 2023, anunciou em 28 de novembro de 2025 o lançamento do DeepSeek-Math-V2, um modelo de IA com pesos abertos especializado em raciocínio matemático avançado. O sistema atingiu desempenho equivalente a medalha de ouro na IMO 2025, resolvendo 5 de 6 problemas, e marcou 118/120 na competição Putnam 2024, superando a melhor pontuação humana de 94.
Arquitetura Inovadora de Verificação Autônoma
O modelo usa uma estrutura dual: um prover (gerador MoE com 685 bilhões de parâmetros) propõe provas, enquanto um verifier avalia cada etapa, atribuindo scores de confiança. Um meta-verifier garante consistência. Essa abordagem, treinada com GRPO (Guided Reinforcement Learning with Proof Optimization), permite refinamento iterativo com até 128K tokens de contexto.
Segundo o MarkTechPost, o treinamento incluiu mais de 500 mil provas humanas e 2 milhões sintéticas.
Desempenho em Benchmarks
| Competição | Pontuação | Contexto |
|---|---|---|
| Putnam 2024 | 118/120 | Com test-time compute escalado (16x amostragem) |
| IMO 2025 | Ouro (5/6) | ~42 pontos (limite ouro: 38) |
| CMO 2024 | Ouro | Par com melhor equipe humana |
| ProofBench | 61,9% | Supera DeepThink (60,1%) |
No modo padrão (1 amostra), cai para ~95/120 no Putnam, conforme análise do Business Analytics.
Comparação com Concorrentes
- DeepMind DeepThink: Similar em IMO, mas proprietário; V2 vence em ProofBench.
- GPT-5: 61,9% vs 20% no ProofBench.
O modelo está disponível no GitHub e Hugging Face, promovendo acessibilidade, como destacado pelo China Daily.
limitações e Críticas
As pontuações máximas exigem alto custo computacional: até 32 amostras e 128 verificações por problema, levando a mais de 15 minutos por questão em hardware especializado. Não é viável em tempo real.
Críticas incluem distorções em comparações humanas e falta de testes em problemas reais de engenharia. Pesquisadores notam viés em benchmarks e ausência de código de treinamento completo. A DeepSeek alerta: use como assistente, não substituto em cenários críticos.
O avanço foca na validação de processos, com potencial em educação e pesquisa, mas exige cautela prática.














