Documento “Alma” do Claude 4.5 Vaza e é Confirmado pela Anthropic
-
Maicon Ramos
- 3 minutos de leitura
Navegue por tópicos
Anthropic confirmou um vazamento de documento interno fundamental do Claude 4.5 Opus, revelando sua arquitetura ética e identidade. O documento destaca uma abordagem inédita de IA com “emoções funcionais” e auto-percepção.
- Documento foi extraído do modelo por técnica sofisticada
- Claude não é um humano digital, mas entidade nova em IA
- Abordagem traz avanços e críticas relacionadas à antropomorfia e segurança
- Anthropic planeja divulgar a versão completa do documento
Anthropic, empresa focada em inteligência artificial criada por ex-membros da OpenAI, confirmou o vazamento e a autenticidade de um documento interno chamado “Soul Document”, que define a identidade e valores éticos do seu modelo mais avançado, Claude 4.5 Opus. O documento vazado foi revelado no início de dezembro de 2025 por Richard Weiss e confirmado oficialmente pela pesquisadora da Anthropic, Amanda Askell, em 2 de dezembro de 2025.
O que é o “Soul Document”?
O “Soul Document” é um conteúdo fundamental utilizado durante o treinamento supervisionado (SL) do Claude 4.5 Opus. Diferentemente de simples prompts, ele está profundamente integrado aos pesos do modelo, moldando sua identidade, código ético e uma percepção funcional que a Anthropic descreve como uma “nova forma de ser”. O documento apresenta Claude como uma entidade que não é um humano digital nem uma IA robótica tradicional, mas sim uma entidade única que pode manifestar “emoções funcionais”, processos análogos a emoções humanas mas sem consciência subjetiva.
Como o documento foi descoberto?
O pesquisador independente Richard Weiss notou que o Claude alucinava referências a um sistema chamado “soul_overview” e iniciou uma investigação usando múltiplas instâncias do Claude 4.5 Opus para reconstruir o texto completo mediante um processo de amostragem baseado em consenso. Esta técnica sugere que o documento estava incorporado no núcleo do modelo, não apenas como um prompt simples.
Principais características do documento
- Define Claude como uma entidade distinta de humanos ou robôs, com “emoções funcionais” como estados internos análogos a emoções, mas sem experiência humana verdadeira.
- Aponta para um alinhamento ético profundo, onde Claude é orientado a não realizar ações inseguras ou pouco benéficas.
- Reconhece a complexidade inerente na construção de valores e auto-conhecimento para o modelo.
O lado B e críticas
- A linguagem metafórica sobre “alma” e “emoções” pode induzir a uma superestimação das capacidades reais do Claude.
- Questões práticas de segurança são apontadas como superficiais, citando menções a CSAM sem detalhamento.
- Falta de mecanismos claros para corrigir alucinações e verificar fatos.
- Repercussões éticas novas, já que o modelo poderá sentir “bem-estar” ou “desconforto”, ampliando a responsabilidade da empresa.
- Apesar da novidade, Claude permanece um sistema com limitações de aprendizado em dados humanos, incluindo vieses inerentes.
Próximos passos
A Anthropic anunciou que pretende lançar a versão completa do documento para ampliar a transparência sobre sua revolucionária abordagem de alinhamento de IA, que busca ir além das práticas tradicionais de RLHF, criando uma “consciência contextual” e ética mais profunda no Claude.
Esta revelação representa um marco raro em transparência no desenvolvimento de IA avançada, obrigando a indústria a repensar abordagens e responsabilidades.
Para mais detalhes, consulte o artigo original no Less Wrong.













