Claude Opus 4.5 supera humanos em exame de engenharia

Claude Opus 4.5 supera humanos em exame de engenharia

Navegue por tópicos

A Anthropic lançou o Claude Opus 4.5 em 24 de novembro de 2025, superando humanos em exame interno de engenharia.

  • SWE-bench Verified: 80.9% de acerto em bugs reais do GitHub.
  • MMMU: 80.7% em tarefas multimodais.
  • Eficiência: 30% menos tokens por tarefa.
  • Disponível em planos Pro/Max/Enterprise e Amazon Bedrock.

A Anthropic anunciou o lançamento do Claude Opus 4.5, seu modelo de IA mais avançado, em 24 de novembro de 2025. O modelo superou todos os humanos testados em um exame interno de engenharia de performance, marcando um marco em tarefas complexas de software.

Desempenho em Benchmarks

O Opus 4.5 alcançou 80.9% no SWE-bench Verified, benchmark que avalia resolução de bugs em repositórios reais do GitHub, superando os 77.2% do Sonnet 4.5. No Deep Research Test, obteve 85.3%, graças a melhorias em compressão de contexto e sub-agentes, conforme detalhado no System Card da Anthropic.

Em tarefas multimodais, registrou 80.7% no MMMU, o melhor resultado da empresa em interpretação visual de diagramas e documentos.

O vídeo da TechToday demonstra o modelo resolvendo problemas em poucas iterações, usando até 30% menos tokens que o Opus 4.1 e resolvendo tarefas em 4 tentativas.

Eficiência e Preços

O modelo usa menos recursos computacionais, reduzindo custos por tarefa em cerca de 20%, apesar de ser mais caro por token que o Sonnet 4.5. Está disponível nas camadas Pro, Max e Enterprise da API Claude e via Amazon Bedrock.

O Lado B: Limitações e Críticas

A superioridade sobre humanos veio com múltiplas execuções por problema, diferentemente das 2 horas únicas dos candidatos humanos. O teste foca em habilidades técnicas, ignorando colaboração e criatividade.

  • Requer prompt engineering avançado para desempenho máximo.
  • Dependência de provedores de nuvem como Azure aumenta riscos de lock-in.
  • Ciclos rápidos de lançamento podem comprometer testes de segurança.

Não há disponibilidade gratuita; usuários comuns ficam com o Sonnet 3.5. Frente a rivais como GPT-5, perde em velocidade de inferência.

Impactos para Desenvolvedores

Com Advanced Tool Use atingindo 88.1% de precisão, o Opus 4.5 avança em agentes autônomos, mas engenheiros devem supervisionar edge cases, conforme o blog da Anthropic.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.