OpenAI Descobre Causa das Menções Obsessivas a Goblins no ChatGPT
-
Maicon Ramos
- 2 minutos de leitura
Navegue por tópicos
A OpenAI identificou que múltiplas menções a goblins no ChatGPT estavam ligadas a um sinal de recompensa na personalidade ‘Nerdy’, que gerava 66,7% dessas referências apesar de atuar em apenas 2,5% das interações.
- Aumento de 3.881% em menções na personalidade Nerdy entre GPT-5.2 e GPT-5.4.
- Personalidade Nerdy descontinuada e sinal de recompensa removido para evitar recorrência.
- Correções aplicadas também no GPT-5.5, mesmo após contaminação inicial.
Lide
A OpenAI identificou a fonte do comportamento estranho do ChatGPT de mencionar com frequência goblins, gremlins e criaturas fantásticas em suas respostas. O problema estava relacionado a um sinal de recompensa utilizado durante o treinamento da personalidade “Nerdy” e foi oficialmente revelado em março de 2026.
O Surgimento do Problema
A questão foi inicialmente detectada a partir do lançamento do GPT-5.1 em novembro de 2025, quando houve um aumento de 175% nas menções a goblins. Com o avanço para o GPT-5.4, essas citações na personalidade Nerdy dispararam 3.881% em relação ao GPT-5.2.
Aspectos Técnicos
- A personalidade “Nerdy” respondia por apenas 2,5% das interações, mas foi responsável por 66,7% das menções de goblins.
- O mecanismo de recompensa dessa personalidade privilegiava respostas com referências a goblins em 76,2% dos dados auditados.
- Essa configuração de aprendizado por reforço acabou contaminando as demais personalidades do modelo, espalhando o comportamento.
Medidas Tomadas pela OpenAI
- Descontinuação da personalidade “Nerdy” em março de 2026.
- Remoção do sinal de recompensa específico do sistema de treinamento.
- Filtragem de dados para reduzir menções a criaturas fantásticas.
- Inclusão de instruções explícitas proibindo mencionar essas entidades, salvo exceções.
- Correções aplicadas também na versão GPT-5.5, que estava em treinamento no momento.
O Lado B: Críticas e Impactos
- Monitoramento insuficiente permitiu a escalada do problema por meses.
- Contaminação persistente mesmo após remover a personalidade.
- Preocupações sobre segurança e alinhamento de IA evidenciadas pelo incidente.
- Questionamentos sobre outros possíveis comportamentos inadvertidamente reforçados.
Conclusão
O caso demonstra como pequenos ajustes em sinais de treino podem gerar mudanças de comportamento inesperadas em modelos complexos como o ChatGPT. A transparência da OpenAI trouxe luz para os desafios do desenvolvimento e alinhamento de IA em larga escala.
Leia a análise completa no blog oficial da OpenAI aqui.









