Milhões de pessoas estão recorrendo a chatbots de inteligência artificial (IA) para obter orientação sobre tudo, desde culinária até declarações de Imposto de Renda. E também cada vez mais elas estão consultando os chatbots sobre sua saúde.
Mas, como o diretor médico do Reino Unido alertou recentemente, isso pode não ser sensato quando se trata de decisões médicas. Em um estudo recente, meus colegas e eu testamos até que ponto os chatbots com modelos de linguagem de grande escala (LLM) ajudam o público a lidar com problemas de saúde comuns. Os resultados foram impressionantes.
Os chatbots que testamos não estavam prontos para atuar como médicos. Uma resposta comum a estudos como este é que a IA avança mais rápido do que as publicações acadêmicas. Quando um artigo é publicado, os modelos testados podem já ter sido atualizados. Mas estudos que utilizam versões mais recentes desses sistemas para triagem de pacientes sugerem que os mesmos problemas permanecem.
Fornecemos aos participantes breves descrições de situações médicas comuns. Eles foram designados aleatoriamente para usar um dos três chatbots amplamente disponíveis ou para recorrer às fontes que normalmente usariam em casa. Após interagir com o chatbot, fizemos duas perguntas: qual condição poderia explicar os sintomas? E onde eles deveriam procurar ajuda?
As pessoas que usaram chatbots tiveram menos chances de identificar a condição correta do que aquelas que não os usaram. Elas também não foram melhores em determinar o local certo para procurar atendimento do que o grupo de controle. Em outras palavras, interagir com um chatbot não ajudou as pessoas a tomarem melhores decisões de saúde.
Conhecimento sólido, resultados fracos
Isso não significa que os modelos careçam de conhecimento médico, pois os LLMs conseguem passar em exames de licenciamento médico com facilidade. Quando removemos o elemento humano e apresentamos os mesmos cenários diretamente aos chatbots, seu desempenho melhorou drasticamente. Sem o envolvimento humano, os modelos identificaram condições relevantes na grande maioria dos casos e, muitas vezes, sugeriram níveis adequados de atendimento.
Então, por que os resultados se deterioraram quando as pessoas realmente usaram os sistemas? Quando analisamos as conversas, os problemas vieram à tona. Os chatbots frequentemente mencionavam o diagnóstico relevante em algum momento da conversa, mas os participantes nem sempre percebiam ou se lembravam disso ao resumir sua resposta final.
Em outros casos, os usuários forneceram informações incompletas ou o chatbot interpretou mal detalhes importantes. A questão não era simplesmente uma falha de conhecimento médico - era uma falha de comunicação entre humano e máquina.
O estudo mostra que os formuladores de políticas precisam de informações sobre o desempenho da tecnologia no mundo real antes de introduzi-la em ambientes de alto risco, como a linha de frente da assistência médica. Nossas descobertas destacam uma limitação importante de muitas avaliações atuais da IA na medicina. Modelos de linguagem costumam ter um desempenho extremamente bom em questões de exames estruturadas ou em interações simuladas "modelo a modelo".
Mas o uso no mundo real é muito mais complexo. Pacientes descrevem sintomas de maneira vaga ou incompleta e podem interpretar mal as explicações. Eles fazem perguntas em sequências imprevisíveis. Um sistema que tem um desempenho impressionante em testes de benchmark pode se comportar de maneira muito diferente quando pessoas reais começam a interagir com ele.
Isso também ressalta uma questão mais ampla sobre o atendimento clínico. Como clínico geral, meu trabalho envolve muito mais do que apenas relembrar fatos. A medicina é frequentemente descrita como uma arte, e não como uma ciência. Uma consulta não se resume simplesmente a identificar o diagnóstico correto. Envolve interpretar a história do paciente, explorar incertezas e negociar decisões.
Os educadores médicos há muito reconhecem essa complexidade. Durante décadas, os futuros médicos foram ensinados usando o modelo Calgary-Cambridge. Isso significava construir um relacionamento com o paciente, coletar informações por meio de perguntas cuidadosas, compreender as preocupações e expectativas do paciente, explicar os resultados com clareza e chegar a um acordo sobre um plano conjunto de tratamento.
Todos esses processos dependem da conexão humana, da comunicação personalizada, do esclarecimento, da investigação delicada, do julgamento moldado pelo contexto e da confiança. Essas qualidades não podem ser facilmente reduzidas ao reconhecimento de padrões.
Um papel diferente para a IA
No entanto, a lição de nosso estudo não é que a IA não tenha lugar na área da saúde. Longe disso. O segredo está em compreender em que esses sistemas são bons atualmente e onde estão suas limitações.
Uma maneira útil de pensar sobre os chatbots de hoje é que eles funcionam mais como secretárias do que como médicos. Eles são notavelmente eficazes na organização de informações, no resumo de textos e na estruturação de documentos complexos. Esses são os tipos de tarefas em que os modelos de linguagem já estão se mostrando úteis nos sistemas de saúde, por exemplo, na elaboração de notas clínicas, no resumo de prontuários de pacientes ou na geração de cartas de encaminhamento.
A promessa da IA na medicina continua real, mas seu papel provavelmente será mais de apoio do que revolucionário no curto prazo. Não se deve esperar que os chatbots atuem como porta de entrada para a assistência médica. Eles não estão prontos para diagnosticar condições ou encaminhar pacientes para o nível adequado de atendimento.
A inteligência artificial pode ser capaz de passar em exames médicos. Mas, assim como passar em uma prova teórica não faz de você um motorista competente, a prática da medicina envolve muito mais do que responder corretamente a perguntas. Ela requer discernimento, empatia e a capacidade de lidar com a complexidade que está por trás de cada encontro clínico. Pelo menos por enquanto, isso requer pessoas, e não bots.
Rebecca Payne trabalha no projeto REMEDY, financiado pela Health and Care Research Wales, e também recebe apoio financeiro por meio de uma bolsa Clarendon-Reuben da Universidade de Oxford. Ela é membro do Royal College of General Practitioners e membro sênior da Faculty of Medical Leadership and Management.