[해외DS] 의료 분야 AI 과대광고 지나치다

의사 임상 결정 돕는 AI 실수는 심각한 문제이기에 의료 분야 AI 정확도 평가 중요 의료 분야 AI 보고서, 데이터 유출 문제로 정확도 지나치게 과대평가하는 경향 있어 기술 최대 잠재력 발휘하고 사람들 혜택 보려면 전체론적 접근 방식이 필수

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Klaus Ohlenschlaeger/Alamy Stock Photo

지난 19일 사이언티픽 아메리칸에는 애리조나 주립대 공과대학 및 보건솔루션대학 부교수이자 오랄 애널리틱스(Aural Analytics) 공동 설립자인 비자르 베리샤(Visar Berisha)와 애리조나 주립대 보건솔루션대학 교수이자 부학장이며 역시 오랄 애널리틱스의 공동 설립자인 줄리 리스(Julie Liss)의 기고문이 실렸습니다. 베리샤 교수와 리스 교수는 의료 분야 AI가 지나치게 과대평가됐다고 경고했습니다.

[아래 내용은 두 교수의 시점으로 작성됐습니다.]

사람들은 매일 인공 지능(AI)으로 돌아가는 도구를 사용합니다. 아마존의 알렉사, 애플의 시리 같은 음성 비서가 가장 일반적인 예시이죠. 이와 같은 소비재는 합리적으로 잘 작동하지만(시리는 인간의 말을 대부분 알아듣습니다) 완벽하지는 않습니다. 이러한 한계를 잘 알고 있는 사용자들은 도구가 정답을 찾아낼 때까지 자신의 도구 사용 방법을 조정하거나 그냥 포기합니다. 즉 질문을 조금 쉽게 바꾼다든지 보다 상세한 질문을 하는 식으로 도구가 질문을 잘 이해할 수 있게 도와주다가 안 되면 그냥 프로그램을 꺼 버리는 거죠. 따라서 보통은 시리나 알렉사가 사용자의 요청을 오해했다고 해서 뭔가 엄청난 일이 생기지는 않습니다.

그런데 의료 분야의 AI라면 어떨까요? 의사의 임상 결정을 돕는 AI 모델이 실수한다면? 그 결과는 절대 미미하지 않을 것입니다. 생사를 가를 수도 있겠죠. 그래서 의료 분야 AI 개발자는 모델을 배포하기 전에 모델이 얼마나 잘 작동하는지를 명확히 이해하고 있어야 합니다.

하지만 의료 분야 AI를 다룬 보고서는 그 정확도를 지나치게 낙관적으로 보고 있습니다. 때론 언론에서 선정적으로 다루어지기도 하죠. 미디어는 최대 74%의 정확도로 초기 알츠하이머를 진단하는 알고리즘이 개발됐다든지, 임상의보다 더 정확한 알고리즘이 개발됐다든지 하는 이야기로 가득 차 있습니다. 의료 분야 AI의 발전을 자세히 설명하는 과학 논문에 기반해 새로운 회사나 새로운 투자 및 연구 라인이 만들어지고, 병원 시스템의 대규모화가 실현될 수도 있습니다. 하지만 이러한 기술은 대부분 실제로 배포할 만큼 정교하지 않습니다.

무엇이 문제냐고요? 일반적으로 사람들은 데이터를 AI 모델에 입력하면 모델이 더 정확해지거나, 적어도 퇴화하지는 않을 거라는 생각을 합니다. 하지만 그 반대, 즉 공개된 모델의 정확도는 데이터 셋 크기가 커지면 감소하는 경향을 보인다는 것이 우리뿐 아니라 다른 이들의 연구에서도 확인됐습니다.

직관적으로 이해하기가 쉽지 않은데요, 과학자가 모델의 정확도를 추정하고 보고하는 방식에 그 원인이 있습니다.

연구진은 주어진 데이터 셋의 일부를 가지고 AI 모델을 훈련하고, 훈련에 이용되지 않은 데이터는 “잠금 상자(lockbox)”에 보관합니다. 이후 이 “비축된” 데이터를 사용하여 모델의 정확도를 테스트합니다. 여기까지가 모범적인 모델 정확도 추정 방식입니다. 예를 들어 치매 환자가 말하는 방식을 분석해 치매 환자와 정상인을 구별하는 AI 프로그램을 개발하고 있다고 가정해 보겠습니다. 이 모델은 사람의 말에서 치매 여부를 예측하기 위해 구어 샘플 데이터와 치매 진단 라벨로 구성된 데이터로 훈련됩니다. 이후 위에서 언급한 “비축된” 데이터를 활용한 정확도 테스트를 거치게 됩니다. 여기서 나온 정확도 추정치는 학술 출판물에 보고됩니다. 과학자들에 따르면 알고리즘의 수행 능력은 비축된 데이터에서의 정확도가 높을수록 좋아집니다.

과연 이것과 앞서 언급한 문제, 데이터 셋 크기가 커지면 모델의 정확도가 오히려 떨어지는 것이 무슨 관계일까요? 이상적인 상황에서 과학자는 모델이 완성되고 수정될 때까지 이 “비축된” 데이터를 볼 수 없습니다. 하지만 현실이 이상과 같기란 쉽지 않죠. 현실에서 과학자들은 데이터를 들여다보고(때론 의도치 않게 들여다보기도 합니다), 높은 정확도를 얻을 때까지 모델을 수정할 수 있습니다. 이러한 현상을 “데이터 유출”이라고 합니다. 모델 수정 및 테스트에 “비축된” 데이터를 사용하면 시스템은 당연히 그 “비축된” 데이터를 정확하게 예측할 것입니다. 즉 모델의 정확도 추정치가 실제보다 부풀려진다는 겁니다. 이런 경우에는 새로운 데이터 셋으로 모델을 테스트해야 합니다. 그렇게 해야 모델이 실제로 학습하고, “익숙하지 않은” 것을 보고도 올바른 진단을 내릴 수 있는지 확인할 수 있습니다.

이렇게 만들어진 지나치게 낙관적인 정확도 추정치가 과학 문헌으로 발표되는 동안, 그보다 성능이 낮은 모델은 서랍 깊은 곳에서 나오지 못합니다. 사이언스 지는 이를 “파일 서랍”에 들어간다고 표현했죠. 만일 출판을 위해 제출한다고 하더라도 승인될 확률은 낮습니다. 특히 소규모 데이터 셋으로 훈련/평가된 모델은 데이터 유출과 게시 편향의 영향을 굉장히 많이 받습니다. 즉 작은 데이터 셋으로 훈련된 모델은 정확도가 과대평가될 가능성이 더 큽니다. 앞서 말한, 출판된 문헌에서 작은 데이터 셋으로 훈련된 모델의 정확도가 큰 데이터 셋으로 훈련된 모델보다 높게 보고되는 독특한 경향은 바로 이렇게 해서 생겨난 겁니다.

그렇다면 이런 현상은 어떻게 예방할 수 있을까요? 모델 검증 방법과 검증 결과를 문헌에 보고하는 방법을 보다 엄격하게 규정할 필요가 있습니다. 알고리즘 설계자는 자신이 개발하는 AI 모델을 특정한 상황에 적용하는 것이 윤리에 어긋나지 않는 경우 가장 먼저 “인간의 건강과 같은 복잡한 구조를 모델링하기에 충분한 데이터가 있는가?”라는 질문을 생각해 보아야 합니다. 만약 여기서 “예”라고 대답할 수 있다면 모델의 “정확성”을 어떻게든 높여 보려는 행위는 중단하고, “신뢰할 수 있는” 모델 평가에 더 많은 노력을 기울여야 합니다.

신뢰할 수 있는 모델 평가는 “대표적인 데이터”를 확보하는 것에서 시작됩니다. AI 모델을 개발할 때 가장 어려운 단계는 다름 아닌 훈련 및 테스트 데이터 자체를 설계하는 단계입니다. 알렉사나 시리 같은 소비재 AI를 개발하는 회사는 데이터를 기회주의적으로 수집하지만, 임상 AI 모델은 이해관계가 상당히 복잡하기 때문에 그런 식으로 데이터를 수집할 수 없습니다. 알고리즘 설계자는 모델 교육에 쓰이는 데이터의 크기와 구성을 정기적으로 점검하면서 그 데이터가 조건 표시 범위와 사용자 인구 통계를 대표하는 게 맞는지 확인해야 합니다. 모든 데이터 셋에는 불완전한 지점이 존재합니다. 따라서 연구원은 모델을 훈련하고 평가할 때 쓰이는 데이터의 한계와 그 한계가 모델의 성능에 미치는 영향을 이해하기 위해 노력해야 합니다.

안타깝지만 임상 AI 모델을 안정적으로 검증할 수 있는 묘안은 없습니다. 모든 도구와 모든 임상 모집단은 상이합니다. 현실적인 조건이 반영된, 만족스러운 검증 계획을 세우기 위해서는 임상의와 환자가 모델 설계 과정 초기부터 참여해야 합니다, FDA 등 이해 관계자의 의견도 이때부터 반영해야 하죠. 대화를 더 많이 할수록 훈련 데이터 셋의 대표성 보장 가능성이 커지고, 모델의 동작을 이해하기 위한 파라미터가 연관성을 가질 가능성이 커지고, AI가 임상의에게 전달하는 내용의 정확성이 높아집니다.

“재현성 위기”라는 말을 들어 보신 적이 있나요? 재현성 위기는 어떤 연구에서 확인된 결과가 다른 연구에서 재현되지 않는 문제가 지나치게 심각해진 상황을 뜻합니다. 임상 연구 분야에 한 획을 그은 존 이오아니디스(John P. A. Ioannidis)가 지난 2016년 퍼블릭 라이브러리 오브 사이언스(PLOS)에 기고한 글에 따르면 임상 연구를 할 땐 사전 등록이나 환자 중심 같은 전략을 활용해야 재현성 위기에서 벗어날 수 있습니다. 이런 전략으로 투명성을 높이고 신뢰를 쌓는다면 문제가 해결될 거란 말인데, 바로 여기에 의료 분야 AI가 겪는 문제의 실마리가 있습니다.

AI 모델 설계에 대한 사회기술적(sociotechnical) 접근 방식은 임상에 적용할 수 있는, 신뢰할 수 있고 책임 있는 AI 모델을 구축하는 것은 엄밀히 말하면 기술적인 문제가 아니라는 생각에서 비롯됐습니다. 이오아니디스의 전략과 비슷한 맥락인 거죠. 이 접근 방식을 쓰려면 기본 임상 응용 분야에 대한 깊은 지식, 이러한 모델은 더 큰 시스템적 맥락에서 존재한다는 인식, 모델이 실제로 배포된 이후 모델의 성능이 떨어졌을 때 발생할 수 있는 잠재적인 피해에 대한 이해가 필수적입니다.

이와 같이 전체론적인 접근 방식을 쓰지 않는다면 의료 분야의 AI가 과대평가되는 경향은 사라지지 않을 것입니다. 또한 이 접근 방식은 기술로 임상 결과를 개선하고, 소외된 지역 사회까지 임상 범위를 확장할 수 있는 실질적인 잠재력도 갖고 있습니다.

더욱 전체론적인 접근 방식을 임상 AI 모델 개발/테스트에 활용하면 임상 AI 모델이 얼마나 잘 작동하고, 어떤 한계를 갖는지에 대한 논의를 보다 구체적으로 할 수 있습니다. 이렇게 된다면 궁극적으로는 기술이 최대 잠재력을 발휘하고, 사람들에게 그 혜택이 돌아가는 미래가 올 것입니다.


We use tools that rely on artificial intelligence (AI) every day, with voice assistants like Alexa and Siri being among the most common. These consumer products work reasonably well—Siri understands most of what we say—but they are by no means perfect. We accept their limitations and adapt how we use them until they get the right answer, or we give up. After all, the consequences of Siri or Alexa misunderstanding a user request are usually minor.

However, mistakes by AI models that support doctors’ clinical decisions can mean life or death. Therefore, it’s critical that we understand how well these models work before deploying them. Published reports of this technology currently paint a too-optimistic picture of its accuracy, which at times translates to sensationalized stories in the press. Media are rife with discussions of algorithms that can diagnose early Alzheimer’s disease with up to 74 percent accuracy or that are more accurate than clinicians. The scientific papers detailing such advances may become foundations for new companies, new investments and lines of research, and large-scale implementations in hospital systems. In most cases, the technology is not ready for deployment.

Here’s why: As researchers feed data into AI models, the models are expected to become more accurate, or at least not get worse. However, our work and the work of others has identified the opposite, where the reported accuracy in published models decreases with increasing data set size.

The cause of this counterintuitive scenario lies in how the reported accuracy of a model is estimated and reported by scientists. Under best practices, researchers train their AI model on a portion of their data set, holding the rest in a “lockbox.” They then use that “held-out” data to test their model for accuracy. For example, say an AI program is being developed to distinguish people with dementia from people without it by analyzing how they speak. The model is developed using training data that consist of spoken language samples and dementia diagnosis labels, to predict whether a person has dementia from their speech. It is then tested against held-out data of the same type to estimate how accurately it will perform. That estimate of accuracy then gets reported in academic publications; the higher the accuracy on the held-out data, the better the scientists say the algorithm performs.

And why does the research say that reported accuracy decreases with increasing data set size? Ideally, the held-out data are never seen by the scientists until the model is completed and fixed. However, scientists may peek at the data, sometimes unintentionally, and modify the model until it yields a high accuracy, a phenomenon known as data leakage. By using the held-out data to modify their model and then to test it, the researchers are virtually guaranteeing the system will correctly predict the held-out data, leading to inflated estimates of the model’s true accuracy. Instead, they need to use new data sets for testing, to see if the model is actually learning and can look at something fairly unfamiliar to come up with the right diagnosis.

While these overoptimistic estimates of accuracy get published in the scientific literature, the lower-performing models are stuffed in the proverbial “file drawer,” never to be seen by other researchers; or, if they are submitted for publication, they are less likely to be accepted. The impacts of data leakage and publication bias are exceptionally large for models trained and evaluated on small data sets. That is, models trained with small data sets are more likely to report inflated estimates of accuracy; therefore we see this peculiar trend in the published literature where models trained on small data sets report higher accuracy than models trained on large data sets.

We can prevent these issues by being more rigorous about how we validate models and how results are reported in the literature. After determining that development of an AI model is ethical for a particular application, the first question an algorithm designer should ask is “Do we have enough data to model a complex construct like human health?” If the answer is yes, then scientists should spend more time on reliable evaluation of models and less time trying to squeeze every ounce of “accuracy” out of a model. Reliable validation of models begins with ensuring we have representative data. The most challenging problem in AI model development is the design of the training and test data itself. While consumer AI companies opportunistically harvest data, clinical AI models require more care because of the high stakes. Algorithm designers should routinely question the size and composition of the data used to train a model to make sure they are representative of the range of a condition’s presentation and of users’ demographics. All datasets are imperfect in some ways. Researchers should aim to understand the limitations of the data used to train and evaluate models and the implications of these limitations on model performance.

Unfortunately, there is no silver bullet for reliably validating clinical AI models. Every tool and every clinical population are different. To get to satisfactory validation plans that take into account real-world conditions, clinicians and patients need to be involved early in the design process, with input from stakeholders like the Food and Drug Administration. A broader conversation is more likely to ensure that the training data sets are representative; that the parameters for knowing the model works are relevant; and what the AI tells a clinician is appropriate. There are lessons to be learned from the reproducibility crisis in clinical research, where strategies like pre-registration and patient centeredness in research were proposed as a means of increasing transparency and fostering trust. Similarly, a sociotechnical approach to AI model design recognizes that building trustworthy and responsible AI models for clinical applications is not strictly a technical problem. It requires deep knowledge of the underlying clinical application area, a recognition that these models exist in the context of larger systems, and an understanding of the potential harms if the model performance degrades when deployed.
Without this holistic approach, AI hype will continue. And this is unfortunate because technology has real potential to improve clinical outcomes and extend clinical reach into underserved communities. Adopting a more holistic approach to developing and testing clinical AI models will lead to more nuanced discussions about how well these models can work and their limitations. We think this will ultimately result in the technology reaching its full potential and people benefitting from it.

Similar Posts