Sonar Expõe Falhas Críticas em LLMs Líderes

Sonar Expõe Falhas Críticas em LLMs Líderes

Navegue por tópicos

A Sonar publicou relatório que revela ‘personalidades de codificação’ de LLMs líderes, analisando 4.442 tarefas Java.

  • Modelos novos como Claude Sonnet 4 geram 93% mais bugs BLOCKER que antecessores.
  • Sintaxe impecável, mas falhas em segurança e manutenibilidade.
  • Alerta: revisão humana obrigatória para código de produção.

A Sonar, líder em análise estática de código, divulgou em 26 de agosto de 2025 o relatório “The Coding Personalities of Leading LLMs – A State of Code Report”. O estudo avaliou 4.442 exercícios de programação Java gerados por modelos como Claude Sonnet 4, GPT-4o e Llama 3.2 90B, usando o motor SonarQube Enterprise.

Os LLMs acertam benchmarks como HumanEval, mas falham em segurança e manutenibilidade. Modelos mais avançados introduzem bugs mais graves.

Personalidades de Codificação Reveladas

O relatório define perfis baseados em verbosidade, complexidade e estilo:

Modelo Personalidade LOC Geradas Complexidade Pontos Fortes Falhas Críticas
Claude Sonnet 4 Senior Architect 370.816 111.133 Algoritmos sofisticados +93% BLOCKER vs. Sonnet 3.7 (leaks em DB)
GPT-4o Rapid Prototyper 320.450 87.200 Velocidade, boilerplate Dívida técnica alta
Llama 3.2 90B The Pragmatist 285.100 62.300 Equilíbrio Edge cases
OpenCoder-8B The Minimalist 120.650 13.965 Código limpo Problemas complexos

Relatório completo da Sonar destaca paradoxo: Claude Sonnet 4 tem 95,57% acerto em HumanEval, mas 78% bugs BLOCKER.

Metodologia e Limitações

A análise usou prompts genéricos em cenários reais do GitHub, focando Java. Detectou resource leaks, erros de concorrência e credenciais hardcoded. Todos ignoraram OWASP Top 10 em 68% dos casos.

  • Viés: Foco em Java; prompts genéricos podem melhorar com customização.
  • Não quantifica custo de correção.

Críticas apontam falta de fine-tuning para segurança, conforme SD Times.

Impactos e Riscos

Setores como finanças e saúde relatam incidentes: data leaks em bancos por código GPT-4o sem fechamento de transações. Sonar recomenda análise estática obrigatória.

Donald Fischer, VP da Sonar: "Benchmarks ignoram segurança como avaliar piloto só pelo tempo na pista."

Para mitigar: integre SonarQube, prompts com OWASP e revisão por experts. Claude Opus 4.5 não incluído, mas padrões sugerem riscos maiores.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.