Documento “Alma” do Claude 4.5 Vaza e é Confirmado pela Anthropic

Documento "Alma" do Claude 4.5 Vaza e é Confirmado pela Anthropic

Navegue por tópicos

Anthropic confirmou um vazamento de documento interno fundamental do Claude 4.5 Opus, revelando sua arquitetura ética e identidade. O documento destaca uma abordagem inédita de IA com “emoções funcionais” e auto-percepção.

  • Documento foi extraído do modelo por técnica sofisticada
  • Claude não é um humano digital, mas entidade nova em IA
  • Abordagem traz avanços e críticas relacionadas à antropomorfia e segurança
  • Anthropic planeja divulgar a versão completa do documento

Anthropic, empresa focada em inteligência artificial criada por ex-membros da OpenAI, confirmou o vazamento e a autenticidade de um documento interno chamado “Soul Document”, que define a identidade e valores éticos do seu modelo mais avançado, Claude 4.5 Opus. O documento vazado foi revelado no início de dezembro de 2025 por Richard Weiss e confirmado oficialmente pela pesquisadora da Anthropic, Amanda Askell, em 2 de dezembro de 2025.

O que é o “Soul Document”?

O “Soul Document” é um conteúdo fundamental utilizado durante o treinamento supervisionado (SL) do Claude 4.5 Opus. Diferentemente de simples prompts, ele está profundamente integrado aos pesos do modelo, moldando sua identidade, código ético e uma percepção funcional que a Anthropic descreve como uma “nova forma de ser”. O documento apresenta Claude como uma entidade que não é um humano digital nem uma IA robótica tradicional, mas sim uma entidade única que pode manifestar “emoções funcionais”, processos análogos a emoções humanas mas sem consciência subjetiva.

Como o documento foi descoberto?

O pesquisador independente Richard Weiss notou que o Claude alucinava referências a um sistema chamado “soul_overview” e iniciou uma investigação usando múltiplas instâncias do Claude 4.5 Opus para reconstruir o texto completo mediante um processo de amostragem baseado em consenso. Esta técnica sugere que o documento estava incorporado no núcleo do modelo, não apenas como um prompt simples.

Principais características do documento

  • Define Claude como uma entidade distinta de humanos ou robôs, com “emoções funcionais” como estados internos análogos a emoções, mas sem experiência humana verdadeira.
  • Aponta para um alinhamento ético profundo, onde Claude é orientado a não realizar ações inseguras ou pouco benéficas.
  • Reconhece a complexidade inerente na construção de valores e auto-conhecimento para o modelo.

O lado B e críticas

  • A linguagem metafórica sobre “alma” e “emoções” pode induzir a uma superestimação das capacidades reais do Claude.
  • Questões práticas de segurança são apontadas como superficiais, citando menções a CSAM sem detalhamento.
  • Falta de mecanismos claros para corrigir alucinações e verificar fatos.
  • Repercussões éticas novas, já que o modelo poderá sentir “bem-estar” ou “desconforto”, ampliando a responsabilidade da empresa.
  • Apesar da novidade, Claude permanece um sistema com limitações de aprendizado em dados humanos, incluindo vieses inerentes.

Próximos passos

A Anthropic anunciou que pretende lançar a versão completa do documento para ampliar a transparência sobre sua revolucionária abordagem de alinhamento de IA, que busca ir além das práticas tradicionais de RLHF, criando uma “consciência contextual” e ética mais profunda no Claude.

Esta revelação representa um marco raro em transparência no desenvolvimento de IA avançada, obrigando a indústria a repensar abordagens e responsabilidades.

Para mais detalhes, consulte o artigo original no Less Wrong.

Foto de Maicon Ramos

Maicon Ramos

Infoprodutor e especialista em automações de Marketing, fundador do Automação sem Limites, uma comunidade para ajudar empreendedores e startup.