Claude Opus 4.5 supera humanos em exame de engenharia
-
Maicon Ramos
- 2 minutos de leitura
Navegue por tópicos
A Anthropic lançou o Claude Opus 4.5 em 24 de novembro de 2025, superando humanos em exame interno de engenharia.
- SWE-bench Verified: 80.9% de acerto em bugs reais do GitHub.
- MMMU: 80.7% em tarefas multimodais.
- Eficiência: 30% menos tokens por tarefa.
- Disponível em planos Pro/Max/Enterprise e Amazon Bedrock.
A Anthropic anunciou o lançamento do Claude Opus 4.5, seu modelo de IA mais avançado, em 24 de novembro de 2025. O modelo superou todos os humanos testados em um exame interno de engenharia de performance, marcando um marco em tarefas complexas de software.
Desempenho em Benchmarks
O Opus 4.5 alcançou 80.9% no SWE-bench Verified, benchmark que avalia resolução de bugs em repositórios reais do GitHub, superando os 77.2% do Sonnet 4.5. No Deep Research Test, obteve 85.3%, graças a melhorias em compressão de contexto e sub-agentes, conforme detalhado no System Card da Anthropic.
Em tarefas multimodais, registrou 80.7% no MMMU, o melhor resultado da empresa em interpretação visual de diagramas e documentos.
O vídeo da TechToday demonstra o modelo resolvendo problemas em poucas iterações, usando até 30% menos tokens que o Opus 4.1 e resolvendo tarefas em 4 tentativas.
Eficiência e Preços
O modelo usa menos recursos computacionais, reduzindo custos por tarefa em cerca de 20%, apesar de ser mais caro por token que o Sonnet 4.5. Está disponível nas camadas Pro, Max e Enterprise da API Claude e via Amazon Bedrock.
O Lado B: Limitações e Críticas
A superioridade sobre humanos veio com múltiplas execuções por problema, diferentemente das 2 horas únicas dos candidatos humanos. O teste foca em habilidades técnicas, ignorando colaboração e criatividade.
- Requer prompt engineering avançado para desempenho máximo.
- Dependência de provedores de nuvem como Azure aumenta riscos de lock-in.
- Ciclos rápidos de lançamento podem comprometer testes de segurança.
Não há disponibilidade gratuita; usuários comuns ficam com o Sonnet 3.5. Frente a rivais como GPT-5, perde em velocidade de inferência.
Impactos para Desenvolvedores
Com Advanced Tool Use atingindo 88.1% de precisão, o Opus 4.5 avança em agentes autônomos, mas engenheiros devem supervisionar edge cases, conforme o blog da Anthropic.














