[해외DS] 스마트 알고리즘, 팬데믹 가능성 있는 동물 바이러스 찾아낸다 (2)

Nardus Mollentze, 인수공통 바이러스 분류하는 프로그램 개발 예측 툴로 모든 질병 예방할 순 없지만 발생 빈도는 확실히 줄일 수 있어 개방형 데이터 공유 위한 글로벌 협력, 국제법 정비 필요

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

박쥐에게는 미확인 코로나바이러스가 많습니다./사진=AttilaBarsan/Getty Images

[해외DS] 스마트 알고리즘, 팬데믹 가능성 있는 동물 바이러스 찾아낸다 (1)에서 이어집니다.

모델 속으로

바이러스가 최초로 발견됐을 땐 일반적으로 유전적 서열만을 확인할 수 있기 때문에 게놈 정보만 가지고 바이러스를 분류할 수 있는 모델은 굉장히 유용합니다. 영국 글래스고대 전산 바이러스학자 Nardus Mollentze는 동료들과 함께 인간 게놈의 일부에 대한 유전적 유사성을 측정해 바이러스를 부분적으로 평가하는 모델을 개발했습니다. 바이러스는 숙주의 게놈에 존재하는 것과 유사한 ‘유전적인 부분’을 갖는 방향으로 진화할 수 있는데, 이는 숙주의 선천적 면역 체계를 회피하거나 복제를 원활히 할 수 있게 돕습니다. Mollentze와 동료들이 개발한 알고리즘은 이미 알려진 바이러스 861개가 포함된 라이브러리로 테스트한 결과 70%의 정확도로 인수공통 감염 여부를 분류했습니다.

이후 Mollentze는 동물 매개 감염 예측 모델을 개발하고 개선하려는 연구원들의 컨소시엄인 Viral Emergence Research Initiative(Verena)에 합류했습니다. Mollentze는 Verena 연구원들과 협력해 미확인 호스트-바이러스의 연관성을 추론하는 방법과 같은 어떤 바이러스가 어떤 호스트를 감염시키는지에 대한 지식을 활용하는 기술과 자신의 알고리즘을 결합했는데, 그 결과 알고리즘의 성능은 10%p가량 향상됐습니다. 앞으로는 바이러스가 분자 수준에서 숙주와 상호작용하는 방식에 대한 지식을 알고리즘에 통합하는 작업도 진행될 수 있을 것입니다. Verena를 이끌고 있는 Carlson은 “단백질과 생화학에 관한 모든 것이 포함될 것입니다.”라며 “그것이 (이 모델의) 미래입니다.”라고 말했습니다.

중요한 목표는 잘 작동하는 모델이 무엇인지, 그 이유가 무엇인지를 알아가는 것입니다. 모델은 단순히 데이터의 패턴만을 가지고 분류하는 것과 그 패턴의 원인을 추론하는 것으로 나뉘지만 이들을 구분하는 것은 까다로울 수 있습니다. Carlson은 “이런 질문이 있을 수 있습니다. 우리는 기계가 ‘이미 알고 있는 것을 반복하도록’ 가르치고 있습니까? 아니면 기계가 원리를 ‘새로운 공간에 적용하도록’ 가르치고 있습니까?”

모델 검증 프로세스는 진행에 있어 중요한 역할을 합니다. 예를 들어, 몇몇 연구에서는 기존 결과를 통합해 어떤 종이 인수공통 바이러스의 숙주가 되는지를 예측하려 하고 있습니다. 하지만 체계적인 비교가 거의 없었기 때문에 각 접근 방식의 유효성을 확인하는 것은 어렵습니다. 이 문제를 해결하기 위해 2020년 초 Verena 연구원들은 어떤 박쥐 종이 베타코로나바이러스의 숙주가 될 수 있을지 예측하는 모델을 활용한 사례 연구를 수행했습니다. 연구원들은 8개의 통계 모델을 구축한 뒤 각각을 활용해 ‘의심되는’ 숙주 목록을 만들었습니다. 이후 16개월 동안 새로운 박쥐 숙주 47종이 발견됐는데, 연구원들은 모델 중 절반의 예측 능력이 다른 절반보다 훨씬 뛰어나다는 것을 확인했습니다. 단순한 우연이라 생각할 수 없는 정도였는데, 이 ‘뛰어난 모델’ 4개 모두에는 종의 수명이나 크기 같은 특성이 반영됐습니다. 반면 이러한 특성이 반영되지 않은 다른 4개 모델의 성능은 좋지 못했습니다.

데이터 개발

모든 인공 지능(AI) 알고리즘은 공급되는 데이터에 의해 제한된다는 근본적인 특성을 지닙니다. Sawyer는 “알고리즘이 많은, 양질의 데이터로 훈련돼야 AI가 작동합니다.”라며 “하지만 해마다 소수의 파급 효과만이 발생하고, 바이러스에 대한 데이터는 누락된 정보가 많아 지저분한 경향이 있습니다.”라고 덧붙였습니다. 대부분의 연구자들은 현재의 데이터가 불충분하다는 견해를 가지고 있습니다. Mazet 역시 “예측을 잘 수행할 수 있는 고품질 데이터가 부족합니다.”라고 말한 바 있습니다.

모델링이 과학자들의 ‘신선한 데이터 수집’에 어느 정도 의존하는 것은 맞지만, 바이러스를 찾아내기 위한 지금까지의 노력은 사실 ‘가장 위험한 장소나 상황 등을 고려하는 과정’에 힘입었습니다. Carlson에 따르면 모델에게 실제로 필요한 건 지리적 및 분류학적 범위를 개선할 수 있는 샘플링입니다. 모델이 이러한 종류의 데이터를 더 많이 제공받는다면 질문의 범위가 달라질 것입니다. Carlson은 “데이터 포인트 100만개가 있다면 삼림 벌채가 어떻게 박쥐의 바이러스 확산을 증가시키는지 보여줄 수 있”고 “1조개가 있다면 날씨와 같은 파급 효과까지 예측할 수 있”다고 주장했습니다.

이를 실현하기 위해서는 ‘개방형 데이터 공유’를 규범으로 삼고 모든 사람이 준수하는 데이터 표준으로 만드는 글로벌 협력이 필요합니다. 이 과정에는 과학적인 것보다는 정치적, 문화적, 윤리적인 요소가 문제가 될 것입니다. 예를 들어 출판물이 받는 학문적인 인센티브는 신속한 데이터 공유를 방해할 것입니다. 아울러 유전자 데이터를 공유하는 국가가 이익을 얻도록 보장하는 것 역시 중요합니다. Olival는 “(이익 보장은) 핵심적인 문제이며, 이를 처리하기 위해서는 신뢰 구축이 필요합니다.”라며 “백신뿐 아니라 교육, 역량 구축 및 논문 공동 집필 과정에서 이러한 ‘보답’이 이뤄지고 있는지 확인해야 합니다.”라고 말했습니다.

2014년 국제 조약인 나고야 의정서가 발효되면서 생물학적 샘플을 비롯한 천연 자원에 대한 국가의 주권을 보호하고, 이러한 샘플에 접근하는 대가로 이익 공유 계약을 요구하는 것이 허용됐습니다. 하지만 일부 실험실에서는 이제 유전자 염기서열 데이터만을 가지고 병원체를 합성하거나 백신 개발을 시작할 수 있습니다. Carlson은 “국제법에는 서열 데이터 이용에 대한 규정이 없”다며 “나고야(의정서)는 그런 세상을 위해 만들어지지 않았습니다.”라고 말했습니다. 동물원성 질병 위험 예측에 있어서도 비슷한 문제가 발생할 수 있습니다. Carlson은 또 “우리는 남반구 연구원들이 수집한 데이터를 사용하고 있습니다.”라며 “그 데이터를 가져와 기술을 만든다는 것이 무엇을 뜻하는지에 대한 ‘정당한 질문’이 존재”한다고 덧붙였습니다.

예측 그리고 준비

모델링은 실행 가능하고, 지역적 연관성이 있는 정보를 제공하는 ‘공개적으로 액세스할 수 있는’ 툴이 되어야 현실에 영향을 줄 수 있습니다. 뿐만 아니라 병원체의 특성을 조사하기 위한 실험 과정에 보다 잘 통합돼야 합니다. 모델이 추가적인 연구를 위해 후보 바이러스를 특정할 수 있는 것처럼, 병원체 특성 조사 과정에서는 모델을 검증하고 개선하는 데 활용할 수 있는 정보를 얻을 수 있습니다. 하지만 학제 간 의사 소통은 아직까지 제한적입니다. Sawyer는 “이들은 서로의 논문을 많이 읽지도 않고, 대화를 하지도 않는 커뮤니티입니다.”라고 평가했습니다.

모델러는 또한 자신의 작업에 내재된 불확실성과 작업의 예측이 의미하는 바를 명확하게 전달하여 모델의 이점을 부풀리지 않아야 합니다. Olival은 “다음 팬데믹이 발생할 시간, 장소 및 종을 정확하게 예측할 수 있다고 말하는 사람은 아무도 없습니다.”라고 말했습니다. 연구원들은 ‘확률’을 다루기 때문에 예기치 않은 일은 언제나 발생할 수 있고, 발생합니다.

최선을 다한다 하더라도 예측 툴로 발병을 완전히 예방하는 것은 불가능합니다. Carlson은 “전 세계의 보안을 이러한 (질병 예측) 모델에 의존해야 한다고 생각하지 않습니다.”라고 밝혔습니다. 하지만 예측 툴의 가치는 분명합니다. 글로벌 감시 시스템을 고도화하고, 표적 백신을 개발하고, 전 세계적으로 의료 역량을 구축하려는 노력이 함께한다면 말입니다. Carlson은 “(예측 툴 덕분에) 두 가지 일, 즉 우리 주변에서 일어나는 일을 이해하고, 우선 순위를 정하는 일을 할 수 있게 됐습니다.”라고 전했습니다. 궁극적으로, 예측 툴은 전염병의 빈도를 줄이는 데 도움이 될 수 있습니다. Carlson은 또 “(새로 발생할 전염병) 중 일부는 더 잘 예방할 수 있습니다. 그렇지만 이를 위해서는 지금 하고 있는 일을 더 잘 해야 합니다.”라고 말했습니다.


INSIDE THE MODELS

When a virus is discovered, often little is known about it other than its genetic sequence. Models that can triage viruses using only their genomes would therefore be particularly useful. Nardus Mollentze, a computational virologist at the University of Glasgow, UK, and his colleagues have developed one such model, which assesses viruses in part by using a measure of their genetic similarity to parts of the human genome. Evolutionary pressure on viruses can result in genetic segments that resemble those in the host’s genome—either to evade the innate immune system or to aid replication. When tested on a library of 861 known viruses, the algorithm could classify them as zoonotic or not with 70% accuracy.

Mollentze has since joined the Viral Emergence Research Initiative (Verena), a consortium of researchers seeking to develop and improve zoonotic prediction models. Mollentze collaborated with Verena researchers to combine his algorithm with techniques that exploit knowledge of which viruses infect which hosts, including methods for inferring unknown host–virus associations. This combined approach raised performance by roughly ten percentage points. In future, knowledge of how viruses interact with hosts on a molecular level could be incorporated. “It’s going to be all about proteins and biochemistry,” says Carlson, who directs Verena. “That’s the future of this.”

An important goal is to learn which models work well, and why. There are models that merely classify according to patterns in the data, and those that infer the reasons for those patterns, but it can be difficult to tell them apart. “There’s this question: are we just teaching machines to reiterate things they already know, or are they learning principles that carry into new space?” says Carlson.

To make progress, the process of validating models will be crucial. For instance, several studies have tried to predict which species host zoonotic viruses, with mixed results, but there has been little systematic comparison, making it difficult to know which approaches work. To address this, in early 2020, Verena researchers used predictions of which bat species might host betacoronaviruses as a case study. They created eight statistical models and used them to generate a list of suspected hosts. In the following 16 months, 47 new bat hosts were discovered. When the researchers compared these with their predictions, they found that half of the models performed significantly better than chance. These models included traits such as the species’ lifespan or size. The other four models did not take such features into account and performed poorly.

DATA DEVELOPMENTS

Any artificial intelligence (AI) algorithm is fundamentally limited by the data it is fed. “AI works when the algorithm is trained on large amounts of quality data,” says Sawyer. “But only a small number of spillovers occur each year, and data on viruses tend to be dirty, with a lot of missing information.” Most researchers agree that the data are currently insufficient. “We don’t have enough high-quality data to do a good job at prediction,” says Mazet.

To some extent, modelling relies on scientists gathering fresh data, but viral-discovery efforts so far have been motivated by considerations such as the highest-risk places and situations. What modellers actually need is sampling aimed at improving geographical and taxonomic coverage, Carlson says. Supplying models with more data of this kind changes the horizon of what questions can be asked. “With a million data points, you can show how deforestation increases viral prevalence in bats,” Carlson says. “With a trillion points, you could predict spillover like the weather.”

To get anywhere close to that would require global cooperation, with open data sharing as the norm and data standards that everyone adheres to. The obstacles to this are more political, cultural and ethical than scientific. Academic incentives around publications, for example, are an obstacle to rapid data sharing. Guaranteeing that countries that share genetic data benefit from doing so is also crucial. “That’s the key issue and dealing with it involves building trust,” says Olival. “Making sure you’re giving back, not only with vaccines, but with training, capacity building and co-authorship on papers.”

The Nagoya Protocol, an international treaty that came into effect in 2014, enshrines countries’ sovereignty over natural resources, including biological samples, and allows them to require benefit-sharing agreements in return for access to such samples. However, some labs can now synthesize pathogens or begin to develop vaccines using just genetic sequencing data. “We don’t have anything set up in international law that deals with sequence data,” says Carlson. “Nagoya isn’t made for that world.” Similar issues might some day apply to zoonotic risk prediction. “We’re using data collected by researchers in the global south,” says Carlson. “There are legitimate questions about what it means to take that data and make a technology.”

PREDICT AND PREPARE

For modelling to have real-world impact, it must lead to publicly accessible tools that provide actionable, locally relevant information. Modelling also needs to be better integrated with experimental work to interrogate the characteristics of pathogens. Just as a model might flag candidate viruses for further study, so might those investigations produce information that can be used to validate and refine the models. However, interdisciplinary communication is currently limited. “These are communities that don’t talk or even read each other’s papers much,” says Sawyer.

Modellers also need to clearly communicate the uncertainty inherent in their work, and what they mean by prediction so they do not oversell the benefits. “No one says we’re going to have the exact time, place and species that will lead to the next pandemic,” says Olival. Researchers are dealing with probabilities, and unexpected things can and do happen.

Even at their best, predictive tools are not going to be able to completely prevent outbreaks. “I absolutely do not think we should hinge the world’s security on these models,” says Carlson. But alongside improved global surveillance systems, targeted vaccine development and efforts to build health-care capacity worldwide, their value is clear. “They let us do two things: understand what’s happening around us and prioritize,” Carlson says. Ultimately, that might help to reduce the frequency of pandemics. “We can get better at preventing some of them,” says Carlson. “But it requires us to get better at what we’re doing.”

Similar Posts