Sonar Expõe Falhas Críticas em LLMs Líderes

Maicon Ramos
02/12/2025
2 minutos de leitura

A Sonar publicou relatório que revela ‘personalidades de codificação’ de LLMs líderes, analisando 4.442 tarefas Java.

Modelos novos como Claude Sonnet 4 geram 93% mais bugs BLOCKER que antecessores.
Sintaxe impecável, mas falhas em segurança e manutenibilidade.
Alerta: revisão humana obrigatória para código de produção.

A Sonar, líder em análise estática de código, divulgou em 26 de agosto de 2025 o relatório “The Coding Personalities of Leading LLMs – A State of Code Report”. O estudo avaliou 4.442 exercícios de programação Java gerados por modelos como Claude Sonnet 4, GPT-4o e Llama 3.2 90B, usando o motor SonarQube Enterprise.

Os LLMs acertam benchmarks como HumanEval, mas falham em segurança e manutenibilidade. Modelos mais avançados introduzem bugs mais graves.

Personalidades de Codificação Reveladas

O relatório define perfis baseados em verbosidade, complexidade e estilo:

Modelo	Personalidade	LOC Geradas	Complexidade	Pontos Fortes	Falhas Críticas
Claude Sonnet 4	Senior Architect	370.816	111.133	Algoritmos sofisticados	+93% BLOCKER vs. Sonnet 3.7 (leaks em DB)
GPT-4o	Rapid Prototyper	320.450	87.200	Velocidade, boilerplate	Dívida técnica alta
Llama 3.2 90B	The Pragmatist	285.100	62.300	Equilíbrio	Edge cases
OpenCoder-8B	The Minimalist	120.650	13.965	Código limpo	Problemas complexos

Relatório completo da Sonar destaca paradoxo: Claude Sonnet 4 tem 95,57% acerto em HumanEval, mas 78% bugs BLOCKER.

Metodologia e Limitações

A análise usou prompts genéricos em cenários reais do GitHub, focando Java. Detectou resource leaks, erros de concorrência e credenciais hardcoded. Todos ignoraram OWASP Top 10 em 68% dos casos.

Viés: Foco em Java; prompts genéricos podem melhorar com customização.
Não quantifica custo de correção.

Críticas apontam falta de fine-tuning para segurança, conforme SD Times.

Impactos e Riscos

Setores como finanças e saúde relatam incidentes: data leaks em bancos por código GPT-4o sem fechamento de transações. Sonar recomenda análise estática obrigatória.

Donald Fischer, VP da Sonar: "Benchmarks ignoram segurança como avaliar piloto só pelo tempo na pista."

Para mitigar: integre SonarQube, prompts com OWASP e revisão por experts. Claude Opus 4.5 não incluído, mas padrões sugerem riscos maiores.

Treinamentos

Sonar Expõe Falhas Críticas em LLMs Líderes

Navegue por tópicos

Personalidades de Codificação Reveladas

Metodologia e Limitações

Impactos e Riscos

Maicon Ramos

OpenAI Codex cria jogo completo com um único prompt estruturado

IA Mais que Dobra Produção de Código, mas Ganhos São Desiguais

Apple Renova Siri com IA do Google Gemini para Competir com ChatGPT

Anthropic Lança Claude Opus 4.8 e Desafia OpenAI

Guia ensina a treinar IA para editar no seu estilo

AWS destaca bases sólidas para escalar agentic AI corporativo

Categorias

Soluções

Inscreva-se em nossa newsletter