DeepSeek lança Math-V2: IA autoverificável em matemática

Maicon Ramos
02/12/2025
3 minutos de leitura

DeepSeek AI, startup chinesa, lançou em 27 de novembro de 2025 o DeepSeekMath-V2, LLM open-source focado em raciocínio matemático com verificação automática de lógica.

Desempenho: 118/120 no Putnam 2024 e ouro na IMO 2025.
Inovação: Arquitetura gerador-verificador garante rigor lógico.
Limitações: Exige 689 GB VRAM e latência de até 30s.

A DeepSeek AI, startup chinesa fundada em 2022 com sede em Pequim, anunciou em 27 de novembro de 2025 o lançamento do DeepSeekMath-V2. O modelo de linguagem de grande porte (LLM), com 685 bilhões de parâmetros, destaca-se por sua capacidade de raciocínio matemático avançado e autoverificação lógica.

Disponibilizado no Hugging Face sob licença Apache 2.0, permite uso comercial e modificações. O foco resolve uma falha comum em IAs matemáticas: priorizar apenas respostas finais corretas, ignorando inconsistências no processo de derivação.

Arquitetura inovadora: Gerador e Verificador

O DeepSeekMath-V2 separa responsabilidades em dois componentes principais:

Gerador: Baseado no DeepSeek-V3.2-Exp-Base, produz provas passo a passo usando scaled test-time compute para explorar múltiplos caminhos.
Verificador: Valida cada etapa lógica, identificando erros como divisão por zero ou induções falhas, e fornece feedback ao gerador.

Essa abordagem cria um ciclo de aprimoramento automático, treinando com dados gerados dinamicamente.

Desempenho em benchmarks reais

Testes independentes confirmam superioridade:

Putnam 2024: 118/120 pontos.
IMO 2025: Medalha de ouro, top 5% global.
CMO 2024: Acima do 99º percentil.

Métrica	DeepSeekMath-V2	Google DeepMind	OpenAI o1
Precisão IMO-ProofBench	89.2%	85.7%	87.1%
Latência (prova média)	12.4s	8.2s	9.1s
Licença	Apache 2.0	Restrita	Restrita

Fonte: Business Analytics e docs oficiais.

Aplicações potenciais

O modelo apoia verificação formal de código, como em smart contracts Ethereum, pesquisa em física teórica e educação matemática, mostrando processos completos.

Limitações e críticas

Apesar dos avanços, há trade-offs:

Custo computacional: Latência até 30 segundos em problemas complexos devido à verificação extra (+50% tempo).
Hardware: Requer 689 GB VRAM para inferência plena; quantizado precisa de 89 GB.
Viés em criatividade: Pode rejeitar soluções inovadoras fora de padrões lógicos treinados.

A comunidade acadêmica questiona: Prof. Karen Uhlenbeck alerta que reduz matemática a algoritmos, ignorando intuição. Relatório do MIT-CSAIL aponta falhas em 23% dos problemas de topologia.

Não recomendado para aplicações críticas como medicina ou finanças sem auditoria, devido a incertezas não quantificáveis.

O lançamento, discutido por Simon Willison, reforça a corrida por IA matemática open-source, mas destaca barreiras de acesso e riscos regulatórios.

Treinamentos

DeepSeek lança Math-V2: IA autoverificável em matemática

Navegue por tópicos

Arquitetura inovadora: Gerador e Verificador

Desempenho em benchmarks reais

Aplicações potenciais

Limitações e críticas

Maicon Ramos

OpenAI Codex cria jogo completo com um único prompt estruturado

IA Mais que Dobra Produção de Código, mas Ganhos São Desiguais

Apple Renova Siri com IA do Google Gemini para Competir com ChatGPT

Anthropic Lança Claude Opus 4.8 e Desafia OpenAI

Guia ensina a treinar IA para editar no seu estilo

AWS destaca bases sólidas para escalar agentic AI corporativo

Categorias

Soluções

Inscreva-se em nossa newsletter