Sonar Expõe Falhas Críticas em LLMs Líderes
-
Maicon Ramos
- 2 minutos de leitura
Navegue por tópicos
A Sonar publicou relatório que revela ‘personalidades de codificação’ de LLMs líderes, analisando 4.442 tarefas Java.
- Modelos novos como Claude Sonnet 4 geram 93% mais bugs BLOCKER que antecessores.
- Sintaxe impecável, mas falhas em segurança e manutenibilidade.
- Alerta: revisão humana obrigatória para código de produção.
A Sonar, líder em análise estática de código, divulgou em 26 de agosto de 2025 o relatório “The Coding Personalities of Leading LLMs – A State of Code Report”. O estudo avaliou 4.442 exercícios de programação Java gerados por modelos como Claude Sonnet 4, GPT-4o e Llama 3.2 90B, usando o motor SonarQube Enterprise.
Os LLMs acertam benchmarks como HumanEval, mas falham em segurança e manutenibilidade. Modelos mais avançados introduzem bugs mais graves.
Personalidades de Codificação Reveladas
O relatório define perfis baseados em verbosidade, complexidade e estilo:
| Modelo | Personalidade | LOC Geradas | Complexidade | Pontos Fortes | Falhas Críticas |
|---|---|---|---|---|---|
| Claude Sonnet 4 | Senior Architect | 370.816 | 111.133 | Algoritmos sofisticados | +93% BLOCKER vs. Sonnet 3.7 (leaks em DB) |
| GPT-4o | Rapid Prototyper | 320.450 | 87.200 | Velocidade, boilerplate | Dívida técnica alta |
| Llama 3.2 90B | The Pragmatist | 285.100 | 62.300 | Equilíbrio | Edge cases |
| OpenCoder-8B | The Minimalist | 120.650 | 13.965 | Código limpo | Problemas complexos |
Relatório completo da Sonar destaca paradoxo: Claude Sonnet 4 tem 95,57% acerto em HumanEval, mas 78% bugs BLOCKER.
Metodologia e Limitações
A análise usou prompts genéricos em cenários reais do GitHub, focando Java. Detectou resource leaks, erros de concorrência e credenciais hardcoded. Todos ignoraram OWASP Top 10 em 68% dos casos.
- Viés: Foco em Java; prompts genéricos podem melhorar com customização.
- Não quantifica custo de correção.
Críticas apontam falta de fine-tuning para segurança, conforme SD Times.
Impactos e Riscos
Setores como finanças e saúde relatam incidentes: data leaks em bancos por código GPT-4o sem fechamento de transações. Sonar recomenda análise estática obrigatória.
Donald Fischer, VP da Sonar: "Benchmarks ignoram segurança como avaliar piloto só pelo tempo na pista."
Para mitigar: integre SonarQube, prompts com OWASP e revisão por experts. Claude Opus 4.5 não incluído, mas padrões sugerem riscos maiores.














