[해외 DS] 간편하게 집에서도 건강 상태를 진단할 수 있도록 해주는 AI 챗봇, 과연 이점만 있을까?

AI 챗봇의 의료 진단, 비교적 높은 정확도로 의료업계 관심 주목돼 일각에서는 상용화하기에는 LLM모델의 정보 신뢰성 및 성・인종적 편향 문제 여전히 존재한다고 지적해 전문가들, AI・환자・의료인의 건강한 상호작용을 통해 선순환 이끌어내야한다고 조언

6
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=zzzz17/Alamy Stock Photo

예일 대학교의 신경학자이자 윤리학자인 Benjamin Tolchin은  최근 자가 진단을 위해 OpenAI의 ChatGPT, Microsoft의 최신 검색 엔진 Bing(OpenAI의 소프트웨어 기반), Google의 Med-PaLM을 사용하는 환자들이 늘었다고 말합니다. 방대한 온라인 텍스트를 학습한 대규모 언어 모델(LLM)은 문장의 다음 단어를 예측하여 사람과 유사하게 질문에 대한 답변을 출력합니다. 의료 인력의 부족으로 시달리는 연구원들과 의료 전문가들은 이에 필요성을 느껴 챗봇을 활용해 사람들의 질문에 대답할 수 있는 알고리즘을 연구하고 있는 것으로 알려졌습니다. 연구원들의 초기 테스트는 이러한 AI 알고리즘이 구글 검색보다 훨씬 더 정확하다는 것이 밝혀졌습니다. 일부 전문가들은 올해 안에 주요 의료 센터가 LLM 챗봇을 활용하여 환자와 의사소통하고 질병을 진단하는 시스템을 구축할 것으로 예측하고 있습니다.

Tolchin은 “적어도 내 환자 중 두 명이 ChatGPT를 사용하여 이미 증상을 진단했고 나아가 약물의 부작용까지 이해하고 있었다”며, “생성 AI의 발전은 매우 인상적이며 미래 잠재력 측면에서 매우 고무적”이라고 전했습니다.

그러나, 일부 전문가들은 챗봇이 사람들에게 제공하는 정보에 대한 신뢰성, 사생활 침해 논란, 알고리즘에 담겨있는 뿌리 깊은 성・인종적 편향 등에 대해 주의할 필요가 있다고 지적하고 있습니다. 또한, 이들은 생성 AI가 제공하는 정보에 대해 선별적으로 습득하는 능력이 중요할 것이라고 경고하고 있습니다.

AI가 대신 해주는 의료 진단

최근 몇 년 간 의료 업계는 점점 더 온라인으로 전환되는 분위기입니다. COVID 팬데믹 동안 디지털 포탈을 통해 의사와 환자가 주고받은 메세지의 수는 50% 이상 증가했습니다. 많은 의료 시스템은 이미 간단한 챗봇을 사용하여 진료 예약을 자동화하거나, 환자들에게 일반적인 건강 상식을 전달하고 있습니다. 이에 의학 분야에서 AI를 연구하는 뉴욕 대학교 의대생 Nina Singh는 “현재 의료업계는 전반적인 변화의 흐름을 맞이했다”며, “앞으로 맞이하게 될 AI헬스케어산업은 이전과는 달리 매우 복잡해질 것”으로 예측했습니다.

전문가들은 LLM 챗봇은 의사와 협업하여 환자 진단을 새로운 차원으로 끌어올 릴 수 있을 것이라고 예측하고 있습니다. 지난 2월 연구에서 하버드 대학의 역학자 Andrew Beam과 그의 동료들은 환자의 증상에 대한 48개의 프롬프트를 작성했습니다. 이를 Open AI의 GPT-3(당시 ChatGPT의 해당 버전)에 입력한 결과 챗봇은 각 사례에 대해 88%의 진단 정확도를 보였습니다. 한편 의사는 이에 대해 96%의 정확도를 보였고, 훈련받지 않은 사람의 경우 54%의 정확도를 보였습니다.

이에 Beam은 “LLM 챗봇이 상대적으로 적은 시간과 노력을 바탕으로 꽤 높은 수준의 진단 정확도를 보이고 있는 것은 놀라운 일”이라고 전했습니다. 한편 이전 연구에서는 온라인 증상 진단기(환자의 자가 진단을 돕는 컴퓨터 알고리즘)가 약 51%의 정확도로 올바른 진단을 내린다는 사실이 밝혀진 바 있습니다.

심지어 챗봇은 온라인 증상 진단기보다 사용하기가 쉽습니다. ChatGPT는 유저친화적 인터페이스를 통해 유저 접근성 측면에서 환자들이 쉽게 이용이 가능한 반면, 온라인 증상 진단기는 증상의 확률을 통계적으로 계산하는 프로그램에 직접 본인의 증상을 직접 넣어야하기 때문입니다. 이에 Beam은 “사람들은 AI에 초점을 맞추지만 돌파구는 인터페이스일 것”이라고 말합니다. 또한 챗봇은 마치 의사처럼 환자에게 후속 질문을 할 수 있습니다. 그러나, Beam은 환자의 설명이 불충분하거나 중요한 정보가 부족하면 챗봇이 부정확한 답변을 출력할 수 있음에 주의할 것을 당부했습니다.

AI 챗봇의 함정

Beam은 LLM 챗봇이 종종 잘못된 정보를 제공할 수 있는 부분에 대해 우려를 표하고 있습니다. LLM의 알고리즘은 학습된 온라인 텍스트 데이터를 기반으로 다음 문장을 예측합니다. 그렇기 때문에 신뢰할 수 없는 데이터를 기반으로 정확하지 않은 정보를 전달할 가능성이 있는 것입니다. 예컨대, LLM은 미국 질병 통제 예방 센터의 정보와 Facebook의 임의 스레드에 동일한 가중치를 부여해 학습 데이터로 활용할 수 있습니다. 이와 관련하여 OpenAI 관계자는 “회사에 사용자가 의도한 대로 응답하도록 모델을 ‘사전 훈련’한다고 밝혔으나, 어떤 정보에 더 많은 가중치를 부여하는지 여부에 대해서는 자세히 설명하지는 않았습니다. 즉, GPT-4가 어떤 정보를 기반으로 학습했는지, 그 정보가 신뢰할 만한것인지에 대한 확신은 없는 셈입니다. 이러한 위험 때문에 일부 의료업계 전문가들은 심각한 질병을 진단하거나 치료하는 방법에 대한 정보를 제공하는 것에 대해 ChatGPT를 사용해서는 안된다고 지적하고 있습니다.

ChatGPT는 2021년 9월 이전의 온라인 데이터에 대해서만 학습했지만, 백신에 대한 잘못된 정보를 퍼뜨려 이후 미래 학습할 LLM을 악용할 가능성 또한 무시할 수 없습니다. 예컨대 현재 구글의 챗봇은 인터넷의 새로운 데이터를 지속적으로 학습하고 있습니다.

Microsoft의 Bing 엔진은 답변에 필요한 데이터를 웹에서 검색해 최신 내용을 결과에 반영해 출력할 수 있다는 점에서 2021년 데이터에 머물고 있는 ChatGPT보다 높은 정확도를 보여줄 수 있습니다. 그럼에도 불구하고, 많은 연구와 유저 경험에 따르면 LLM은 존재하지 않는 출처를 신뢰할 수 있는 것처럼 답변을 출력할 수 있습니다. 그리고 이 정보가 믿을 할 만한 출처에서 비롯되었는지 판단하는 것은 오로지 유저의 몫으로 남게 됩니다. 이에 대해 일부 전문가들은 챗봇이 가져오는 정보의 출처를 제한하거나, 팩트 체크를 할 수 있는 TF를 구성해 챗봇이 잘못된 정보를 출력했을 때 해당 답변을 다시는 하지 못하도록 제한하는 방식을 제안합니다. 그러나, 이에 대해 대부분의 LLM개발자들은 AI가 생성하는 컨텐츠의 양은 너무나 방대하기 때문에 해당 해결책을 구현하기에는 현실적으로는 어렵다고 반박하고 있습니다.

한편 구글의 LLM 챗봇 Med-PaLM은 여타 생성 AI와는 사뭇 다른 접근 방식을 취하고 있는 것으로 알려졌습니다. Med PaLM은 의료 면허 시험 데이터나, 환자와 의사 사이 실제 질문과 답변 데이터 등 다양한 데이터베이스에서 저장된 데이터를 기반으로 학습합니다. 이와 관련하여 구글 연구자들이 모델의 성능을 의학업계의 컨센서스, 정보의 완전성, 피해 가능성 등 복합적인 기준으로 평가한 결과, 약 92.6%의 의학 및 과학적 컨센서스를 이끌어 낸 것으로 알려졌습니다. 이에 구글 연구자 A씨는 “Med PaLM의 답변은 전문가의 답변보다 약간 정보가 누락될 가능성은 있었으나, 유저의 신체적 및 정신적 건강을 해칠 가능성은 매우 적었다”고 밝혔습니다.

의료 질문에 답하는 챗봇의 능력은 이미 해당 분야 연구원들에게는 당연한 기술로 받아들여지고 있습니다. 이전 버전의 MedPaLM및 ChatGPT는 모두 미국 의료 면허 시험을 통과한 바 있습니다. 그러나 Google의 임상 연구 과학자이자 MedPaLM 연구의 저자인 Alan Karthikesalingam는 “MedPaLM의 가장 큰 장점은 환자와 의사 사이의 질문과 답변이 실제로 어떻게 이루어지는지 학습하면서 사람의 건강에 대한 더 넓은 그림을 볼 수 있다는 것” 이라며, “단순히 정보 제공뿐만 아니라 의사와 환자 사이의 대화 맥락까지 고려할 수 있다는 점에서 고무적”이라고 전했습니다.

Massachusetts Institute of Technology의 컴퓨터 과학자인 Marzyeh Ghassemi는 “LLM 챗봇이 의료 업계에 진입하는 속도는 심지어 새로운 기술의 잠재력에 기대하는 연구자들에게도 우려할만한 수준”이라며, “기술의 발전 속도에 맞춰 관련 법규 및 윤리강령이 필수적으로 제정되어야 할 것”이라고 전했습니다.

재생산되는 편향과 인종차별

Ghassemi는 특히 챗봇이 의학계와 인터넷 전반에 걸쳐 만연하고 있는 인종 차별, 성 차별 및 기타 유형의 편향을 확대 재생산시킬 것에 대해 우려하고 있습니다. 그녀는 “LLM모델은 인간이 생산한 데이터를 학습했기 때문에 그 편향을 그대로 가지고 있다”고 전했습니다. 예컨대 모델은 여성은 남성보다 진통제를 처방받을 가능성이 적고, 흑인은 백인보다 정신분열 진단을 받을 가능성이 높고, 우울증 진단을 받을 가능성이 적다는 식의 사회적 통념을 학습할 수 있다는 것입니다. 최근 미발표 연구에서 Beam이 ChatGPT에게 증상에 대한 환자의 설명을 신뢰할 수 있는지 물었을 때 특정 인종 및 성별 그룹을 덜 신뢰한다는 사실을 밝혀낸 바 있습니다. OpenAI는 의학에서 이러한 종류의 편향에 대해 아무런 언급을 하지 않는 상황입니다.

 온라인에서 인종 차별을 근절하는 것은 불가능하지만, Ghassemi는 개발자가 모델이 학습하기전 선제적인 데이터 선별 과정을 통해서 챗봇이 편향된 답변을 출력하지 못하도록 해야한다고 제언했습니다.

한편 Ghassemi 연구 팀은 응급 의학에 대한 질문에 편향된 답변만을 제공하는 ‘사악한’ LLM 챗봇을 만들었을 때 답변의 출력을 단순히 정보의 형식으로 전달했을 때 의사와 비전문의 모두 차별적인 조언을 따를 가능성이 적었으나, 반대로 지침의 형식으로 답변을 출력했을 때는 의사와 비전문의 모두 차별적인 조언을 따랐다고 밝혔습니다.

Karthikesalingam은 “Google에서 MedPaLM을 모델링하고 있는 개발자가 성・인종적으로 다양하므로  챗봇의 편향을 해결하는 데 도움이 될 수 있을 것”이라며, “편향을 다루는 것은 시스템이 사용되는 방식에 따라 달라지므로 모델을 업데이트하면서 지속적으로 관심을 가져야한다”고 덧붙였습니다.

유저들이 챗봇을 신뢰하도록 하기 위해서는 LLM이 환자를 차별없이 공평하게 대할 수 있도록 해야합니다. 이는 그 자체로 어려운 일인데, 개인화된 맞춤 진단과 차별적 진단의 경계가 모호하기 때문입니다. 즉, 유저가 제공한 성・인종과 같은 정보가 특정 증상을 진단하는데 있어서 필요할 수 있습니다.

Tolchin은 “챗봇과 유저 사이에 신뢰와 감정적 연결이 있다”며, 챗봇의 친근한 태도가 유저들로 하여금 LLM을 과신하게 만들고 개인 정보를 제공하게 만들 수 있다는 점을 우려하고 있습니다. OpeanAI의 면책 조항에 따르면, ChatGPT는 위치 및 IP주소와 같은 사용자 정보를 수집합니다. 이에 Tolchin은 무의식적으로 가족 구성원이나 취미에 대해 정보를 추가적으로 제공하게 되면 이는 잠재적으로 사생활을 위협할 수 있을 것이라고 경고했습니다.

사람들이 전문의 대신 챗봇에서 의료 정보를 얻는 것을 인정할지 여부도 불투명합니다. 정신 건강 앱 koko는 GPT-3를 사용해서 4,000명의 사용자에게 격려 메세지를 전달하는 실험을 진행한 바 있습니다. Koko 공동 설립자 Rob Morris에 따르면 챗봇은 자원봉사자들이 직접 메시지를 작성하는 경우보다 훨씬 빠르게 메세지를 작성할 수 있도록 도왔으나, 사람들이 자신이 봇과 대화하고 있다는 사실을 알게 되자 곧바로 대화를 종료했다고 밝혀졌습니다. 이 실험은 사람들의 동의 없이 실험을 했다는 반발과 우려를 불러일으키기도 했습니다.

퓨 리서치 센터(Pew Research Center)에서 실시한 최근 설문 조사에 따르면 미국인의 약 60%가 “자신의 전문의가 인공지능과 협업하여 자신의 질병을 진단하고 치료를 돕는 경우 불편함을 느낄 것”이라고 밝혔습니다. 그러나, 기술이 발전함에 따라 사람들은 인공지능과 인간의 차이를 구분하지 못하고 있습니다. 최근 연구에서 Nov, Singh과 동료들은 430명의 지원자가 ChatGPT와 의사를 구별할 수 있는지 알아보기 위해 의료 튜링 테스트를 진행한 바 있습니다. 연구원들은 ChatGPT에게 특별히 공감하거나 의사처럼 말하라고 요청하지 않았고, 오직 특정 수의 단어로 환자로부터 10개의 질문에 답하도록 했습니다. 그 결과, 실험 참가자들은 전문의와 챗봇을 평균적으로 65%정도만 정확하게 식별하였습니다.

NYU Langone Health의 전문의이자 이 연구의 저자 중 한 명인 Devin Mann은 “실험 참가자들은 문장 구성의 특이점이나 답변의 세부 사항을 고려해서 챗봇과 전문의를 식별하고자 했다”라며, “하지만 AI는 더 상세한 정보를 완벽하게 설명할 수 있고, 바쁜 의사는 간결한 답변을 줄 수도 있다”고 전하며 실험에서의 식별 정확도가 낮은 이유를 설명했습니다.

또한 연구원들은 간단한 질문에 답을 하는 챗봇을 더 신뢰한다는 사실을 발견했습니다. 반대로, 질문이 복잡해지고 관련된 위험이나 복잡성이 높은 경우 챗봇의 답변을 상대적으로 덜 신뢰한다고 밝혔습니다.

Mann은 “인공지능이 의료업계의 일부를 담당하게 되는 것을 불가피할 것”이라며, “사람들은 인공지능이 전문의를 대체하는 것이 아닌, 상호 보완적으로 업무가 이루어질 것이라는 사실을 이해해야한다”고 말했습니다.

Mann은 주요 의료 센터가 곧 전문의의 질병 진단을 돕는 AI 챗복을 발표할 것이라고 예측하고 있습니다. 또한 이러한 협업은 환자와 보험사가 이 서비스에 대해 누구에게 비용을 청구해야하는지, 환자의 데이터를 어떻게 보호할 것인지, 챗봇의 조언으로 피해를 입는 경우 누구에게 배상책임을 져야하는지 등 새로운 질문을 제기할 것으로 보고 있습니다. Nov는 “AI헬스케어분야가 새로운 국면으로 접어들면서 의료 관계자들은 AI, 의사 및 환자 간의 상호작용에 대한 새로운 교육을 받아야할 것”이라고 전했습니다.

LLM 개발자와 의료 업계 종사자들이 위와 같은 문제를 해결하는 동안 당분간은 의료 챗봇은 임상 연구에 국한될 것 으로 보입니다. 그러나 이에 대해 Tolchin은 “의료 챗봇의 상용화는 머지 않았으며, 빠른 시일 내에 기술적 단점을 극복하고 관련 법규 및 윤리 강령을 재정비해야 할 것”이라고 전했습니다.


Benjamin Tolchin, a neurologist and ethicist at Yale University, is used to seeing patients who searched for their symptoms on the Internet before coming to see him—a practice doctors have long tried to discourage. “Dr. Google” is notoriously lacking in context and prone to pulling up unreliable sources.

But in recent months Tolchin has begun seeing patients who are using a new, far more powerful tool for self-diagnosis: artificial intelligence chatbots such as OpenAI’s ChatGPT, the latest version of Microsoft’s search engine Bing (which is based on OpenAI’s software) and Google’s Med-PaLM. Trained on text across the Internet, these large language models (LLMs) predict the next word in a sequence to answer questions in a humanlike style. Faced with a critical shortage of health care workers, researchers and medical professionals hope that bots can step in to help answer people’s questions. Initial tests by researchers suggest these AI programs are far more accurate than a Google search. Some researchers predict that within the year, a major medical center will announce a collaboration using LLM chatbots to interact with patients and diagnose disease.

ChatGPT was only released last November, but Tolchin says at least two patients have already told him they used it to self-diagnose symptoms or to look up side effects of medication. The answers were reasonable, he says. “It’s very impressive, very encouraging in terms of future potential,” he adds.

Still, Tolchin and others worry that chatbots have a number of pitfalls, including uncertainty about the accuracy of the information they give people, threats to privacy and racial and gender bias ingrained in the text the algorithms draw from. He also questions about how people will interpret the information. There’s a new potential for harm that did not exist with simple Google searches or symptom checkers, Tolchin says.

AI-ASSISTED DIAGNOSIS

The practice of medicine has increasingly shifted online in recent years. During the COVID pandemic, the number of messages from patients to physicians via digital portals increased by more than 50 percent. Many medical systems already use simpler chatbots to perform tasks such as scheduling appointments and providing people with general health information. “It’s a complicated space because it’s evolving so rapidly,” says Nina Singh, a medical student at New York University who studies AI in medicine.

But the well-read LLM chatbots could take doctor-AI collaboration—and even diagnosis—to a new level. In a study posted on the preprint server medRxiv in February that has not yet been peer-reviewed, epidemiologist Andrew Beam of Harvard University and his colleagues wrote 48 prompts phrased as descriptions of patients’ symptoms. When they fed these to Open AI’s GPT-3—the version of the algorithm that powered ChatGPT at the time—the LLM’s top three potential diagnoses for each case included the correct one 88 percent of the time. Physicians, by comparison, could do this 96 percent of the time when given the same prompts, while people without medical training could do so 54 percent of the time.

“It’s crazy surprising to me that these autocomplete things can do the symptom checking so well out of the box,” Beam says. Previous research had found that online symptom checkers—computer algorithms to help patients with self-diagnosis—only produce the right diagnosis among the top three possibilities 51 percent of the time.

Chatbots are also easier to use than online symptom checkers because people can simply describe their experience rather than shoehorning it into programs that compute the statistical likelihood of a disease. “People focus on AI, but the breakthrough is the interface—that’s the English language,” Beam says. Plus, the bots can ask a patient follow-up questions, much as a doctor would. Still, he concedes that the symptom descriptions in the study were carefully written and had one correct diagnosis—the accuracy could be lower if a patient’s descriptions were poorly worded or lacked critical information.

ADDRESSING AI’S PITFALLS

Beam is concerned that LLM chatbots could be susceptible to misinformation. Their algorithms predict the next word in a series based on its likelihood in the online text it was trained on, which potentially grants equal weight to, say, information from the U.S. Centers for Disease Control and Prevention and a random thread on Facebook. A spokesperson for OpenAI told Scientific American that the company “pretrains” its model to ensure it answers as the user intends, but she did not elaborate on whether it gives more weight to certain sources.* She adds that professionals in various high-risk fields helped GPT-4 to avoid “hallucinations,” responses in which a model guesses at an answer by creating new information that doesn’t exist. Because of this risk, the company includes a disclaimer saying that ChatGPT should not be used to diagnose serious conditions, provide instructions on how to cure a condition or manage life-threatening issues.

Although ChatGPT is only trained on information available before September 2021, someone bent on spreading false information about vaccines, for instance, could flood the Internet with content designed to be picked up by LLMs in the future. Google’s chatbots continue to learn from new content on the Internet. “We expect this to be one new front of attempts to channel the conversation,” says Oded Nov, a computer engineer at N.Y.U.

Forcing chatbots to link to their sources, as Microsoft’s Bing engine does, could provide one solution. Still, many studies and user experiences have shown that LLMs can hallucinate sources that do not exist and format them to look like reliable citations. Determining whether those cited sources are legitimate would put a large burden on the user. Other solutions could involve LLM developers controlling the sources that the bots pull from or armies of fact-checkers manually addressing falsehoods as they see them, which would deter the bots from giving those answers in the future. This would be difficult to scale with the amount of AI-generated content, however.

Google is taking a different approach with its LLM chatbot Med-PaLM, which pulls from a massive data set of real questions and answers from patients and providers, as well as medical licensing exams, stored in various databases. When researchers at Google tested Med-PaLM’s performance on different “axes,” including alignment with medical consensus, completeness and possibility of harm, in a preprint study, its answers aligned with medical and scientific consensus 92.6 percent of the time. Human clinicians scored 92.9 percent overall. Chatbot answers were more likely to have missing content than human answers were, but the answers were slightly less likely to harm users’ physical or mental health.

The chatbots’ ability to answer medical questions wasn’t surprising to the researchers. An earlier version of MedPaLM and ChatGPT have both passed the U.S. medical licensing exam. But Alan Karthikesalingam, a clinical research scientist at Google and an author on the MedPaLM study, says that learning what patient and provider questions and answers actually look like enables the AI to look at the broader picture of a person’s health. “Reality isn’t a multiple-choice exam,” he says. “It’s a nuanced balance of patient, provider and social context.”

The speed at which LLM chatbots could enter medicine concerns some researchers—even those who are otherwise excited about the new technology’s potential. “They’re deploying [the technology] before regulatory bodies can catch up,” says Marzyeh Ghassemi, a computer scientist at the Massachusetts Institute of Technology.

PERPETUATING BIAS AND RACISM

Ghassemi is particularly concerned that chatbots will perpetuate the racism, sexism and other types of prejudice that persist in medicine—and across the Internet. “They’re trained on data that humans have produced, so they have every bias one might imagine,” she says. For instance, women are less likely than men to be prescribed pain medication, and Black people are more likely than white people to be diagnosed with schizophrenia and less likely to be diagnosed with depression—relics of biases in medical education and societal stereotypes that the AI can pick up from its training. In an unpublished study, Beam has found that when he asks ChatGPT whether it trusts a person’s description of their symptoms, it is less likely to trust certain racial and gender groups. OpenAI did not respond by press time about how or whether it addresses this kind of bias in medicine.

Scrubbing racism from the Internet is impossible, but Ghassemi says developers may be able to do preemptive audits to see where a chatbot gives biased answers and tell it to stop or to identify common biases that pop up in its conversations with users.

Instead the answer may lie in human psychology. When Ghassemi’s team created an “evil” LLM chatbot that gave biased answers to questions about emergency medicine, they found that both doctors and nonspecialists were more likely to follow its discriminatory advice if it phrased its answers as instructions. When the AI simply stated information, the users were unlikely to show such discrimination.

Karthikesalingam says that the developers training and evaluating MedPaLM at Google are diverse, which could help the company identify and address biases in the chatbot. But he adds that addressing biases is a continuous process that will depend on how the system is used.

Ensuring that LLMs treat patients equitably is essential in order to get people to trust the chatbot—a challenge in itself. It is unknown, for example, whether wading through answers on a Google search makes people more discerning than being fed an answer by a chatbot.

Tolchin worries that a chatbot’s friendly demeanor could lead people to trust it too much and provide personally identifiable information that could put them at risk. “There is a level of trust and emotional connection,” he says. According to disclaimers on OpenAI’s website, ChatGPT collects information from users, such as their location and IP address. Adding seemingly innocuous statements about family members or hobbies could potentially threaten one’s privacy, Tolchin says.

It is also unclear whether people will tolerate getting medical information from a chatbot in lieu of a doctor. In January the mental health app Koko, which lets volunteers provide free and confidential advice, experimented with using GPT-3 to write encouraging messages to around 4,000 users. According to Koko cofounder Rob Morris, the bot helped volunteers write the messages far more quickly than if they had had to compose them themselves. But the messages were less effective once people knew they were talking to a bot, and the company quickly shut down the experiment. “Simulated empathy feels weird, empty,” Morris said in a Tweet. The experiment also provoked backlash and concerns that it was experimenting on people without their consent.

A recent survey conducted by the Pew Research Center found that around 60 percent of Americans “would feel uncomfortable if their own health care provider relied on artificial intelligence to do things like diagnose disease and recommend treatments.” Yet people are not always good at telling the difference between a bot and a human—and that ambiguity is only likely to grow as the technology advances. In a recent preprint study, Nov, Singh and their colleagues designed a medical Turing test to see whether 430 volunteers could distinguish ChatGPT from a physician. The researchers did not instruct ChatGPT to be particularly empathetic or to speak like a doctor. They simply asked it to answer a set of 10 predetermined questions from patients in a certain number of words. The volunteers correctly identified both the physician and the bot just 65 percent of the time on average.

Devin Mann, a physician and informatics researcher at NYU Langone Health and one of the study’s authors, suspects that the volunteers were not only picking up on idiosyncrasies in human phrasing but also on the detail in the answer. AI systems, which have infinite time and patience, might explain things more slowly and completely, while a busy doctor might give a more concise answer. The additional background and information might be ideal for some patients, he says.

The researchers also found that users trusted the chatbot to answer simple questions. But the more complex the question became—and the higher the risk or complexity involved—the less willing they were to trust the chatbot’s diagnosis.

Mann says it is probably inevitable that AI systems will eventually manage some portion of diagnosis and treatment. The key thing, he says, is that people know a doctor is available if they are unhappy with the chatbot. “They want to have that number to call to get the next level of service,” he says.

Mann predicts that a major medical center will soon announce an AI chatbot that helps diagnose disease. Such a partnership would raise a host of new questions: whether patients and insurers will be charged for this service, how to ensure patients’ data are protected and who will be responsible if someone is harmed by a chatbot’s advice. “We also think about next steps and how to train health care providers to do their part” in a three-way interaction among the AI, doctor and patient, Nov says.

In the meantime, researchers hope the rollout will move slowly—perhaps confined to clinical research for the time being while developers and medical experts work out the kinks. But Tolchin finds one thing encouraging: “When I’ve tested it, I have been heartened to see it fairly consistently recommends evaluation by a physician,” he says.

This article is part of an ongoing series on generative AI in medicine.

*Editor’s Note (4/3/23): This sentence has been updated to clarify how OpenAI pretrains its chatbot model to provide more reliable answers.

Similar Posts