IA da OpenAI supera médicos em diagnósticos de emergência
-
Maicon Ramos
- 3 minutos de leitura
Navegue por tópicos
Estudo de Harvard publicado na revista Science mostra que o modelo o1-preview da OpenAI foi mais preciso que médicos em casos de emergência.
- Acurácia: IA acertou 67,1% dos diagnósticos iniciais contra 50-55% dos médicos.
- Velocidade: Identificou infecção rara até 24h antes da equipe médica.
- Ressalva: Pesquisadores alertam para alucinações e defendem o uso da IA apenas como suporte (auxílio), não substituto.
Um estudo conduzido pela Harvard Medical School (HMS), em parceria com o Beth Israel Deaconess Medical Center e a Stanford, revelou que o modelo de inteligência artificial o1-preview, da OpenAI, superou médicos especialistas em diagnósticos de casos reais de emergência. Os resultados, publicados na revista Science em 30 de abril, indicam um avanço significativo na capacidade de raciocínio clínico de LLMs (Large Language Models).
Acurácia no Triage: IA vs. Médicos
O teste foi aplicado a 76 casos reais de departamentos de emergência (ER), utilizando exclusivamente textos brutos de prontuários eletrônicos (EHRs), conhecidos por serem “dados bagunçados”. No estágio de triage inicial, onde a pressão é alta e as informações são mínimas, o o1-preview atingiu uma taxa de acertos de 67,1% (diagnósticos corretos ou muito próximos).
Em comparação, dois médicos de instituições de elite registraram acurácias de 55,3% e 50,0% no mesmo cenário. À medida que mais dados de admissão foram liberados, a performance da IA subiu para 81,6%, enquanto os médicos atingiram 78,9% e 69,7%, respectivamente.
Raciocínio Avançado e Casos Críticos
Diferente de modelos anteriores como o GPT-4, o o1-preview utiliza a técnica de chain-of-thought (cadeia de pensamento), que permite ao sistema raciocinar passo a passo antes de emitir a conclusão. Essa mudança arquitetural resultou em ganhos expressivos:
- Detecção Precoce: Em um caso crítico, a IA identificou uma infecção rara entre 12 a 24 horas antes do médico responsável.
- Benchmarks Históricos: Em 143 casos do New England Journal of Medicine (NEJM), a IA incluiu o diagnóstico correto em 78,3% dos diferenciais.
- Superioridade Técnica: Em um teste direto com 70 casos, o o1 venceu o GPT-4 com 88,6% de acurácia contra 72,9%.
O Lado B: Alucinações e Limitações
Apesar dos números impressionantes, os pesquisadores alertam que a ferramenta não deve substituir o julgamento humano. Thomas Buckley, pesquisador da HMS, admitiu que modelos como o o1 ainda podem apresentar alucinações (geração de informações falsas). O mantra adotado pela equipe de pesquisa é “confie, mas verifique”.
Críticos e analistas apontam que a amostra de 76 casos reais é relativamente pequena e que o estudo focou apenas em texto, ignorando exames de imagem e laboratoriais, que são essenciais na prática médica. Além disso, a baixa performance dos médicos no triage (cerca de 50%) levanta discussões sobre as condições de pressão do ambiente de emergência versus o ambiente controlado do teste.
Comparativo de Performance (Triage Inicial)
| Entidade | Acurácia Diagnóstica |
|---|---|
| OpenAI o1-preview | 67,1% |
| Médico Especialista 1 | 55,3% |
| Médico Especialista 2 | 50,0% |
O próximo passo para a tecnologia, segundo o Dr. Adam Rodman, envolve a integração curricular e a realização de ensaios clínicos prospectivos rigorosos, tratando a IA como uma nova intervenção médica antes de sua implementação generalizada em hospitais.








