DeepSeek lança Math-V2: IA autoverificável em matemática
-
Maicon Ramos
- 3 minutos de leitura
Navegue por tópicos
DeepSeek AI, startup chinesa, lançou em 27 de novembro de 2025 o DeepSeekMath-V2, LLM open-source focado em raciocínio matemático com verificação automática de lógica.
- Desempenho: 118/120 no Putnam 2024 e ouro na IMO 2025.
- Inovação: Arquitetura gerador-verificador garante rigor lógico.
- Limitações: Exige 689 GB VRAM e latência de até 30s.
A DeepSeek AI, startup chinesa fundada em 2022 com sede em Pequim, anunciou em 27 de novembro de 2025 o lançamento do DeepSeekMath-V2. O modelo de linguagem de grande porte (LLM), com 685 bilhões de parâmetros, destaca-se por sua capacidade de raciocínio matemático avançado e autoverificação lógica.
Disponibilizado no Hugging Face sob licença Apache 2.0, permite uso comercial e modificações. O foco resolve uma falha comum em IAs matemáticas: priorizar apenas respostas finais corretas, ignorando inconsistências no processo de derivação.
Arquitetura inovadora: Gerador e Verificador
O DeepSeekMath-V2 separa responsabilidades em dois componentes principais:
- Gerador: Baseado no DeepSeek-V3.2-Exp-Base, produz provas passo a passo usando scaled test-time compute para explorar múltiplos caminhos.
- Verificador: Valida cada etapa lógica, identificando erros como divisão por zero ou induções falhas, e fornece feedback ao gerador.
Essa abordagem cria um ciclo de aprimoramento automático, treinando com dados gerados dinamicamente.
Desempenho em benchmarks reais
Testes independentes confirmam superioridade:
- Putnam 2024: 118/120 pontos.
- IMO 2025: Medalha de ouro, top 5% global.
- CMO 2024: Acima do 99º percentil.
| Métrica | DeepSeekMath-V2 | Google DeepMind | OpenAI o1 |
|---|---|---|---|
| Precisão IMO-ProofBench | 89.2% | 85.7% | 87.1% |
| Latência (prova média) | 12.4s | 8.2s | 9.1s |
| Licença | Apache 2.0 | Restrita | Restrita |
Fonte: Business Analytics e docs oficiais.
Aplicações potenciais
O modelo apoia verificação formal de código, como em smart contracts Ethereum, pesquisa em física teórica e educação matemática, mostrando processos completos.
Limitações e críticas
Apesar dos avanços, há trade-offs:
- Custo computacional: Latência até 30 segundos em problemas complexos devido à verificação extra (+50% tempo).
- Hardware: Requer 689 GB VRAM para inferência plena; quantizado precisa de 89 GB.
- Viés em criatividade: Pode rejeitar soluções inovadoras fora de padrões lógicos treinados.
A comunidade acadêmica questiona: Prof. Karen Uhlenbeck alerta que reduz matemática a algoritmos, ignorando intuição. Relatório do MIT-CSAIL aponta falhas em 23% dos problemas de topologia.
Não recomendado para aplicações críticas como medicina ou finanças sem auditoria, devido a incertezas não quantificáveis.
O lançamento, discutido por Simon Willison, reforça a corrida por IA matemática open-source, mas destaca barreiras de acesso e riscos regulatórios.














