Um estudo conduzido na Harvard Medical School e no Beth Israel Deaconess Medical Center, em Boston, indica que a inteligência artificial da OpenAI consegue acertar diagnósticos iniciais de pronto-socorro com mais frequência do que profissionais humanos.
Os resultados foram publicados na revista científica Science e colocaram 76 pacientes reais sob análise simultânea de dois internistas experientes e dos modelos o1 e 4o da companhia.
O modelo de linguagem acertou o problema principal de 67% dos pacientes avaliados, contra 50% e 55% registrados pelos dois médicos que participaram do mesmo experimento. Dois outros clínicos revisaram às cegas cada hipótese apresentada, sem saber se vinham de humanos ou da máquina, estabelecendo a comparação definitiva de acurácia.
O desempenho da IA foi ainda mais destacado na etapa de triagem, quando o acesso a informações é limitado e a urgência, elevada. Os pesquisadores alimentaram o sistema diretamente com os registros eletrônicos de saúde, sem qualquer curadoria ou limpeza prévia, o que significa que o algoritmo enfrentou o mesmo volume denso de anotações e siglas que costuma desafiar médicos humanos.
No braço do trabalho focado em planejamento terapêutico de longo prazo, a vantagem computacional foi ainda mais expressiva. Em cinco casos-teste, o modelo recebeu pontuação média de 89%, enquanto 46 profissionais presentes ficaram em 34% mesmo tendo permissão para usar buscadores na internet.
Para o professor assistente de informática biomédica Arjun Manrai, do Instituto Blavatnik de Harvard, o desfecho demonstra que métodos clássicos de avaliação — como provas de múltipla escolha — já não conseguem medir a evolução recente dos modelos generativos. O pesquisador clínico Peter Brodeur acrescentou que sistemas atuais alcançam perto de 100% nesses testes padronizados, obrigando a comunidade científica a criar métricas mais exigentes baseadas em situações reais de atendimento.
Ainda assim, a equipe insiste que os algoritmos não substituem profissionais, pois integram apenas dados textuais e deixam de lado aspectos cruciais da anamnese presencial, como estado emocional, postura e sinais físicos sutis. Manrai defende que o futuro próximo da medicina será triádico, envolvendo paciente, médico e um consultor digital que amplie a segurança, mas preserve o julgamento humano nas decisões clínicas críticas.
O internista Adam Rodman, coautor sênior do estudo, argumenta que os pacientes ainda preferem a orientação de um especialista humano, mesmo quando a máquina indica o caminho, o que posiciona a IA no papel de ferramenta de apoio ao diagnóstico, e não de substituta. A médica de emergência Kristen Panthagani salienta que a comparação ocorreu com internistas, não com especialistas de pronto-atendimento, o que limitaria a generalização das conclusões para salas de trauma superlotadas.
Brodeur reconhece o ponto e acrescenta que, embora o algoritmo acerte mais diagnósticos, ele também recomenda exames potencialmente desnecessários, gerando custos extras e exposição a radiação sem ganho clínico comprovado. Os autores concluem que a performance obtida justifica ensaios prospectivos e controlados — o mesmo padrão exigido para qualquer intervenção em saúde —, pois apenas dados de campo poderão confirmar se a vantagem estatística se traduz em benefício real para pacientes em larga escala.
Leia mais sobre o assunto na canaltech.com.br.
Leia também: Estudo de Harvard revela que IA supera médicos do pronto-socorro em precisão de diagnósticos
📨 Inscreva-se na Newsletter de O Cafezinho
Receba nossas análises e as principais notícias diárias do Brasil e do Sul Global.


Nenhum comentário ainda, seja o primeiro!