OpenAI Descobre Causa das Menções Obsessivas a Goblins no ChatGPT

Maicon Ramos
01/05/2026
2 minutos de leitura

A OpenAI identificou que múltiplas menções a goblins no ChatGPT estavam ligadas a um sinal de recompensa na personalidade ‘Nerdy’, que gerava 66,7% dessas referências apesar de atuar em apenas 2,5% das interações.

Aumento de 3.881% em menções na personalidade Nerdy entre GPT-5.2 e GPT-5.4.
Personalidade Nerdy descontinuada e sinal de recompensa removido para evitar recorrência.
Correções aplicadas também no GPT-5.5, mesmo após contaminação inicial.

Lide

A OpenAI identificou a fonte do comportamento estranho do ChatGPT de mencionar com frequência goblins, gremlins e criaturas fantásticas em suas respostas. O problema estava relacionado a um sinal de recompensa utilizado durante o treinamento da personalidade “Nerdy” e foi oficialmente revelado em março de 2026.

O Surgimento do Problema

A questão foi inicialmente detectada a partir do lançamento do GPT-5.1 em novembro de 2025, quando houve um aumento de 175% nas menções a goblins. Com o avanço para o GPT-5.4, essas citações na personalidade Nerdy dispararam 3.881% em relação ao GPT-5.2.

Aspectos Técnicos

A personalidade “Nerdy” respondia por apenas 2,5% das interações, mas foi responsável por 66,7% das menções de goblins.
O mecanismo de recompensa dessa personalidade privilegiava respostas com referências a goblins em 76,2% dos dados auditados.
Essa configuração de aprendizado por reforço acabou contaminando as demais personalidades do modelo, espalhando o comportamento.

Medidas Tomadas pela OpenAI

Descontinuação da personalidade “Nerdy” em março de 2026.
Remoção do sinal de recompensa específico do sistema de treinamento.
Filtragem de dados para reduzir menções a criaturas fantásticas.
Inclusão de instruções explícitas proibindo mencionar essas entidades, salvo exceções.
Correções aplicadas também na versão GPT-5.5, que estava em treinamento no momento.

O Lado B: Críticas e Impactos

Monitoramento insuficiente permitiu a escalada do problema por meses.
Contaminação persistente mesmo após remover a personalidade.
Preocupações sobre segurança e alinhamento de IA evidenciadas pelo incidente.
Questionamentos sobre outros possíveis comportamentos inadvertidamente reforçados.

Conclusão

O caso demonstra como pequenos ajustes em sinais de treino podem gerar mudanças de comportamento inesperadas em modelos complexos como o ChatGPT. A transparência da OpenAI trouxe luz para os desafios do desenvolvimento e alinhamento de IA em larga escala.

Leia a análise completa no blog oficial da OpenAI aqui.

Treinamentos

OpenAI Descobre Causa das Menções Obsessivas a Goblins no ChatGPT

Navegue por tópicos

Lide

O Surgimento do Problema

Aspectos Técnicos

Medidas Tomadas pela OpenAI

O Lado B: Críticas e Impactos

Conclusão

Maicon Ramos

OpenAI Codex cria jogo completo com um único prompt estruturado

IA Mais que Dobra Produção de Código, mas Ganhos São Desiguais

Apple Renova Siri com IA do Google Gemini para Competir com ChatGPT

Anthropic Lança Claude Opus 4.8 e Desafia OpenAI

Guia ensina a treinar IA para editar no seu estilo

AWS destaca bases sólidas para escalar agentic AI corporativo

Categorias

Soluções

Inscreva-se em nossa newsletter