OpenAI Descobre Causa das Menções Obsessivas a Goblins no ChatGPT

Navegue por tópicos

A OpenAI identificou que múltiplas menções a goblins no ChatGPT estavam ligadas a um sinal de recompensa na personalidade ‘Nerdy’, que gerava 66,7% dessas referências apesar de atuar em apenas 2,5% das interações.

  • Aumento de 3.881% em menções na personalidade Nerdy entre GPT-5.2 e GPT-5.4.
  • Personalidade Nerdy descontinuada e sinal de recompensa removido para evitar recorrência.
  • Correções aplicadas também no GPT-5.5, mesmo após contaminação inicial.

Lide

A OpenAI identificou a fonte do comportamento estranho do ChatGPT de mencionar com frequência goblins, gremlins e criaturas fantásticas em suas respostas. O problema estava relacionado a um sinal de recompensa utilizado durante o treinamento da personalidade “Nerdy” e foi oficialmente revelado em março de 2026.

O Surgimento do Problema

A questão foi inicialmente detectada a partir do lançamento do GPT-5.1 em novembro de 2025, quando houve um aumento de 175% nas menções a goblins. Com o avanço para o GPT-5.4, essas citações na personalidade Nerdy dispararam 3.881% em relação ao GPT-5.2.

Aspectos Técnicos

  • A personalidade “Nerdy” respondia por apenas 2,5% das interações, mas foi responsável por 66,7% das menções de goblins.
  • O mecanismo de recompensa dessa personalidade privilegiava respostas com referências a goblins em 76,2% dos dados auditados.
  • Essa configuração de aprendizado por reforço acabou contaminando as demais personalidades do modelo, espalhando o comportamento.

Medidas Tomadas pela OpenAI

  • Descontinuação da personalidade “Nerdy” em março de 2026.
  • Remoção do sinal de recompensa específico do sistema de treinamento.
  • Filtragem de dados para reduzir menções a criaturas fantásticas.
  • Inclusão de instruções explícitas proibindo mencionar essas entidades, salvo exceções.
  • Correções aplicadas também na versão GPT-5.5, que estava em treinamento no momento.

O Lado B: Críticas e Impactos

  • Monitoramento insuficiente permitiu a escalada do problema por meses.
  • Contaminação persistente mesmo após remover a personalidade.
  • Preocupações sobre segurança e alinhamento de IA evidenciadas pelo incidente.
  • Questionamentos sobre outros possíveis comportamentos inadvertidamente reforçados.

Conclusão

O caso demonstra como pequenos ajustes em sinais de treino podem gerar mudanças de comportamento inesperadas em modelos complexos como o ChatGPT. A transparência da OpenAI trouxe luz para os desafios do desenvolvimento e alinhamento de IA em larga escala.

Leia a análise completa no blog oficial da OpenAI aqui.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.