[해외DS] 스마트 알고리즘, 팬데믹 가능성 있는 동물 바이러스 찾아낸다 (1)

통계 모델과 머신 러닝 기반한 동물원성 감염증 위험 예측 기술, 팬데믹 예측 돕는다 전염병 예방하거나 더 잘 대응하려면 인수공통전염병 이해해야 바이러스 다양성 연구 진행 중, 머신 러닝이 효율성 높인다

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

2013년 홍콩의 한 시장에서 생닭이 판매되고 있습니다./사진=Jerome Favre/Bloomberg via Getty Images

지난 2021년 2월 러시아 소재 가금류 농장 한 곳의 노동자 7명이 H5N8형 조류 인플루엔자에 감염됐다는 사실이 보고됐습니다. H5N8로 분류되는 인플루엔자가 인간을 감염시킨 최초의 사례인데, 해당 보고 직후 그 H5N8 바이러스의 유전자 서열은 유전자 데이터 저장소인 GISAID에 신속히 등재됐습니다. 한편, 워싱턴 DC 조지타운대 소속 생물학자 Colin Carlson는 이것을 기회라고 생각했습니다. Carlson은 “저는 (등재된 정보를 본) 즉시 ‘이걸(인간이 감염된 H5N8 바이러스 유전자 서열) FluLeap으로 돌려보고 싶다’고 생각했습니다.”라고 말했습니다.

FluLeap은 시퀀스 데이터를 사용하여 인플루엔자 바이러스를 조류 또는 인간으로 분류하는 머신 러닝 알고리즘입니다. 이 알고리즘은 인간을 감염시키는 인플루엔자 바이러스와 조류를 감염시키는 인플루엔자 바이러스의 차이점을 인식할 수 있도록, H5N8을 비롯한 수많은 인플루엔자 게놈 데이터로 훈련됐습니다. Carlson은 FluLeap이 이번에 새롭게 발견된 바이러스 아형을 어떻게 분류할지에 주목했는데, FluLeap은 이전에 인간을 감염시키는 H5N8형 바이러스를 접한 적이 없었기 때문입니다.

놀랍게도 FluLeap은 이 바이러스를 ‘인간’ 카테고리에 넣었습니다. 신뢰도는 99.7%였습니다. 이는 FluLeap이 기존 훈련 데이터의 ‘패턴’, 즉 H5N8형 바이러스는 일반적으로 사람을 감염시키지 않는다는 사실을 단순히 반복하지 않고 해당 바이러스와 인간 사이의 호환성에 대한 생물학적인 단서를 추론해 결과를 내놓는다는 증거입니다. Carlson은 “모델이 제대로 작동했다는 사실이 놀랍다”고 했지만 “하지만 이건 하나의 데이터 포인트에 불과합니다. 만약 모델이 (이러한 추론을) 천 번 이상 더 해낼 수 있다면 더 놀랍겠죠.”라고 덧붙였습니다.

대부분의 팬데믹은 야생 동물이 갖고 있던 바이러스가 사람으로 이동하는 인수공통 감염 과정에서 발생합니다. 이러한 사례는 인간이 동물의 서식지를 침범하고 기후 변화가 생기면서 빈번해졌습니다. 따라서 전염병을 예방하거나, 적어도 더 잘 대응하기 위해서는 인수공통전염병 이해가 필수적입니다.

연구원들은 지구상에 존재하는 포유류 바이러스 중 약 1%만이 확인됐다고 추정합니다. 그래서 어떤 과학자들은 야생 동물을 샘플링해 인수공통전염병을 일으키는 바이러스에 대한 지식을 넓히려는 시도를 하기도 했습니다. 이것도 엄청난 작업이지만, 지난 10여 년 동안 새롭게 떠오른 분야가 있습니다. 바로 통계 모델과 머신 러닝을 활용해 글로벌 ‘핫스팟(hotspots; 팬데믹이 발생하는 지역)’, 숙주가 될 가능성이 있는 동물 혹은 특정한 바이러스의 인간에 대한 감염력 등 질병의 출현을 예측하는 분야입니다. 이를 ‘동물원성 감염증(zoonotic) 위험 예측 기술’이라 부르는데, 해당 분야의 연구원들에 따르면 이 기술은 감시할 영역과 상황을 보다 정확하게 특정하고 필요할 가능성이 가장 높은 백신과 치료제를 개발하도록 도울 수 있습니다.

하지만 일부 연구원들은 이러한 예측 기술만으로 바이러스의 규모와 끊임없이 변화하는 특성에 대처하기는 힘들다는 견해를 가지고 있습니다. 모델과 모델이 의존하는 데이터를 개선하려는 노력이 이어지고 있지만, 미래의 팬데믹을 완화하려면 이러한 툴을 넘어선 좀더 ‘광범위한 노력’이 필요합니다.

바이러스 사냥

일부 연구원들은 바이러스 다양성에 대한 지식을 넓히면 전염병으로부터의 위협을 관리하는 데 도움이 될 것이라고 오랫동안 주장해 왔습니다. 미국 국제개발처(USAID)의 자금 지원을 받고 있는 2억 달러 규모의 프로젝트 PREDICT는 2020년까지 약 10년 동안 동물 바이러스를 조사해 34개국의 야생 동물, 가축 및 사람의 샘플에서 새로운 바이러스 949개를 찾아내는 성과를 거뒀습니다.

PREDICT의 성과 중 일부는 ‘선견지명’을 지닌 것처럼 보이기도 합니다. 구체적으로, 2017년 진행된 한 PREDICT 연구는 박쥐(SARS-CoV-2 바이러스의 근원으로 널리 알려져 있음)에게 발견되지 않은 수천 개의 코로나바이러스가 있다고 추정하고, 야생동물 시장처럼 인간과 야생동물이 깊게 접촉하는 활동이 코로나바이러스의 높은 유병률과 연관됨을 보였습니다.

역시 2017년 진행된 또다른 PREDICT 연구는 어떤 바이러스가 어떤 포유류를 감염시키는지에 대한 데이터를 수집해 바이러스-숙주 연결 데이터베이스를 구축하고자 했습니다. 해당 연구의 책임자이자 뉴욕시 EcoHealth Alliance(생물 감시 및 보존에 집중하는 비영리 단체) 소속 생태학자인 Kevin Olival은 “(연구의) 목표는 어떤 바이러스가 인간을 감염시킬 수 있는지, 인간은 어떤 동물로부터 새로운 바이러스를 가장 많이 획득하는지, 그리고 이러한 패턴을 주도하는 근본적인 요인이 무엇인지를 이해하는 것이었습니다.”라고 전했습니다. 연구팀의 분석에 따르면 특정한 숙주 종이 보유한 바이러스 중 인간을 감염시킬 수 있는 바이러스의 비율에는 인간과 해당 종의 연관도, 인간과 야생 동물의 접촉에 영향을 미치는 요인(인간의 인구 밀도, 해당 종의 지리적 범위가 인간 도시와 겹치는 정도 등) 등이 영향을 미칩니다. 연구팀은 통계 모델링을 이용해 발견되지 않은 바이러스를 많이 보유하고 있을 가능성이 있는 동물 그룹과 지역을 예측하고자 했습니다. 남미, 아프리카, 동남아시아를 비롯한 지역의 설치류와 영장류 등이 연구 대상이었는데, 박쥐가 포함되어 있다는 점이 눈에 띕니다. 아울러 연구원들은 바이러스가 감염시킬 수 있는 종의 범위 등 인수공통전염병 바이러스와 관련된 특성을 발견했습니다.

연구팀에 의하면 이러한 정보는 감시 활동의 이정표 역할을 할 수 있습니다. PREDICT를 이끈 캘리포니아대 데이비스 캠퍼스 소속 역학자 Jonna Mazet은 “이번 연구를 통해 가장 위험한 지역을 예측할 수 있게 됐다.”라고 평가했습니다. 특정한 위협을 찾아낼 수 있다면 현지 연구원과 의료 종사자가 맞춤화된 완화 및 대응책을 제시할 수도 있는데, Mazet은 “(이번 연구로) 커뮤니티에서 ‘우리는 이것, 이것 그리고 이것을 가지고 있고 이러한 방식으로 우리의 위험을 줄일 수 있다’라고 발표할 수 있게 됐다.”라고 덧붙였습니다.

PREDICT는 파일럿 프로젝트에 불과했는데, Olival은 “(프로젝트를 통해) 많은 데이터를 얻었지만 이는 양동이 속 물방울 하나에 불과합니다.”라며 “우리는 좀더 큰 것이 필요합니다.”라고 말하기도 했습니다. 그래서 연구자들은 2016년 포유류와 조류가 지닌 대부분의 바이러스(동물원성 바이러스는 대부분 여기에서 기원합니다.)를 찾아내자는 프로젝트를 제안했는데, 바로 이것이 정부 기관, 비정부 기구와 연구원이 참여하는 글로벌 파트너십이라 평가되는 Global Virome Project, 즉 GVP입니다. 하지만 GVP에는 자금이 지원되지 않았는데, 일부 연구원들의 비판이 있었기 때문입니다. Mazet은 이 프로젝트가 현재 비영리 조직으로 남아 있으며, 국가를 상대로 자체적인 바이러스 설문 조사를 수행하는 데 필요한 지식을 제공하는 것을 목표로 한다고 설명했습니다. 한편 USAID는 2021년 10월 좀더 작고 돈이 덜 들어가는 프로젝트인 ‘Discovery and Exploration of Emerging Pathogens – Viral Zoonoses (DEEP VZ; 새로운 병원체의 발견 및 탐색 – 동물이 유발하는 바이러스성 전염병)’를 시작했습니다.

GVP에 대한 비판으로는 작업의 규모가 단순히 관리할 수 있는 수준을 넘어선다는 것이 있습니다. PREDICT 연구원들은 포유류와 조류의 미확인 바이러스 수를 167만개로 추정하는데, 수치 자체에 논쟁의 여지가 있긴 하지만 바이러스 규모가 방대하다는 건 확실합니다. 아울러 바이러스가 지속적으로 변화하기 때문에 꾸준한 조사가 필요합니다. 호주 시드니대 소속 바이러스학자 Edward Holmes는 “RNA 바이러스의 진화 속도는 엄청나다”며 “그렇기 때문에 (조사를) 계속해야 한다”고 말했습니다.

GVP는 잠재적인 팬데믹을 찾아내는 것에 불과하다는 회의론도 있습니다. Holmes는 “나는 바이러스 진화와 생태계를 문제없이 이해할 수 있다”며 “(GVP는) ‘다음에 무엇이 올지’ 이해하기 위한 예측 도구로서의 역할을 하지 못한다.”고 단언했습니다. 편향성 역시 또다른 문제인데, GVP는 일부 숙주 종과 바이러스 계열 연구에 집중하면서 다른 분야는 거의 건드리지 않았고 기존 데이터 역시 이미 유출된 바이러스에 편향돼 있습니다. 결과적으로 지금까지 나온 대부분의 예측은, 뉴질랜드 오타고대 소속 바이러스학자 Jemma Geoghegan의 말마따나 “완전히 편향된 데이터”에 기반했습니다. 뿐만 아니라 바이러스를 발견하고 그 바이러스 게놈의 염기서열을 분석한다 해도 인간에 대한 감염력 혹은 인간 간의 전염력 등 팬데믹을 촉발할 가능성에 영향을 미칠 수 있는 많은 요인은 여전히 불분명할 것입니다. Holmes는 “수년이 걸리고 막대한 비용이 드는, 이 모든 실험을 수행해야 합니다.”라고 말했습니다.

머신 러닝은 바로 여기에서 진가를 발휘합니다. 새로운 바이러스를 전부, 완전히 특성화하는 대신 모델을 이용해 추가 조사의 우선 순위를 결정하는 것입니다. 콜로라도대 볼더 캠퍼스 소속 바이러스학자 Sara Sawyer는 “필요한 것은 분류 시스템 다운스트림이기 때문에 심층 바이러스학 연구(in-depth virology studies)를 통해 어떤 바이러스를 특성화해야 하는지 알 수 있다.”고 전했습니다.

[해외DS] 스마트 알고리즘, 팬데믹 가능성 있는 동물 바이러스 찾아낸다 (2) 이어집니다.


In February 2021, seven Russian poultry-farm workers were reported to have been infected with H5N8 avian influenza. This subtype of bird flu had never been known to infect people before, and the virus’s genetic sequence was quickly uploaded to the genetic data repository GISAID. For Colin Carlson, a biologist at Georgetown University in Washington DC, it presented an opportunity. “I immediately thought, ‘I want to run this through FluLeap’,” he says.

FluLeap is a machine-learning algorithm that uses sequence data to classify influenza viruses as either avian or human. The model had been trained on a huge number of influenza genomes—including examples of H5N8—to learn the differences between those that infect people and those that infect birds. But the model had never seen an H5N8 virus categorized as human, and Carlson was curious to see what it made of this new subtype.

Somewhat surprisingly, the model identified it as human with 99.7% confidence. Rather than simply reiterating patterns in its training data, such as the fact that H5N8 viruses do not typically infect people, the model seemed to have inferred some biological signature of compatibility with humans. “It’s stunning that the model worked,” says Carlson. “But it’s one data point; it would be more stunning if I could do it a thousand more times.”
The zoonotic process of viruses jumping from wildlife to people causes most pandemics. As climate change and human encroachment on animal habitats increase the frequency of these events, understanding zoonoses is crucial to efforts to prevent pandemics, or at least to be better prepared.

Researchers estimate that around 1% of the mammalian viruses on the planet have been identified, so some scientists have attempted to expand our knowledge of this global virome by sampling wildlife. This is a huge task, but over the past decade or so, a new discipline has emerged—one in which researchers use statistical models and machine learning to predict aspects of disease emergence, such as global hotspots, likely animal hosts or the ability of a particular virus to infect humans. Advocates of such ‘zoonotic risk prediction’ technology argue that it will allow us to better target surveillance to the right areas and situations, and guide the development of vaccines and therapeutics that are most likely to be needed.

However, some researchers are sceptical of the ability of predictive technology to cope with the scale and ever-changing nature of the virome. Efforts to improve the models and the data they rely on are under way, but these tools will need to be a part of a broader effort if they are to mitigate future pandemics.

VIRUS HUNTING

Some researchers have long argued that expanding our knowledge of viral diversity will help to manage pandemic threats. PREDICT, a US$200-million project funded by the US Agency for International Development (USAID), spent around a decade looking for animal viruses. By the time it ended in 2020, it had identified 949 new viruses in samples from wildlife, livestock and people, in 34 countries.

Some of PREDICT’s findings might seem prescient, in hindsight. A 2017 study estimated that there are thousands of undiscovered coronaviruses in bats (widely thought to be the source of the virus SARS-CoV-2), and predicted that southeast Asia would be home to the greatest number of viruses in the family to which SARS-CoV-2 belongs. It also associated activities that involve high levels of human–wildlife contact, such as wildlife markets, with a higher prevalence of coronaviruses.

Another 2017 study collected data on which viruses infect which mammals, creating a database of virus–host associations. “The goal was to understand which viruses are capable of infecting people, what animals we’re most often getting new viruses from and the underlying factors that drive those patterns,” says ecologist and study leader Kevin Olival at the EcoHealth Alliance in New York City, a non-profit body focused on bio-surveillance and conservation. The team’s analysis showed that the proportion of viruses in a given host species that can infect humans is affected by how closely related humans are to that species, as well as factors that influence human–wildlife contact, such as the human population density and the degree of urbanization in that species’ geographical range. The team used statistical modelling to predict animal groups and regions that were likely to harbour a large number of undiscovered viruses—bats featured prominently, along with rodents and primates, in regions including South America, Africa and southeast Asia. The researchers also found traits associated with a virus being zoonotic, such as the range of species it can infect.

The team says this information can help to guide surveillance efforts. “It allows us to forecast areas most at risk,” says Jonna Mazet, an epidemiologist at the University of California, Davis, who directed PREDICT. Identifying specific threats also allows local researchers and health-care workers to tailor mitigation and response capabilities. “It allows communities to say ‘we have this, this and this, and we can reduce our risk in these ways’,” says Mazet.

PREDICT was intended to be just a pilot project. “It generated a lot of data, but it was a drop in the bucket,” says Olival. “We need something bigger.” Researchers therefore proposed the Global Virome Project (GVP) in 2016, seen as a global partnership of government agencies, non-governmental organizations and researchers, with the aim of discovering most of the viruses in mammals and birds (from which most zoonotic viruses originate). However, in the face of criticism from some researchers, it has never been funded. It exists today as a non-profit organization, aiming to provide countries with the knowledge required to carry out their own viral surveys, Mazet says. A smaller, much less costly project called Discovery and Exploration of Emerging Pathogens—Viral Zoonoses (DEEP VZ) was launched by USAID in October 2021.

One criticism of the GVP is that the scale of the task is simply unmanageable. PREDICT researchers estimate that there are 1.67 million unknown viruses in mammals and birds, and although this figure is contested, there is no doubt that the virome is vast. It is also constantly changing, so one-off discovery efforts would not be enough. “RNA viruses evolve at a hefty rate,” says Edward Holmes, a virologist at the University of Sydney in Australia. “So you’d have to keep doing it.”

There is also scepticism that the project would have identified potential pandemics. “I have no problem with it in terms of understanding virus evolution and ecology,” Holmes says. “But as a predictive tool to understand what comes next, it’s a non-starter.” One issue is that some host species and viral families have been intensively studied, but others have hardly been touched. Existing data are also skewed towards viruses that have already spilled over. As a result, most predictions so far have been based on “completely biased data”, says Jemma Geoghegan, a virologist at the University of Otago in New Zealand. Moreover, even when a virus is discovered and its genome is sequenced, many factors that can influence its potential to spark a pandemic, such as its ability to infect humans and be transmitted from person to person, will still be unclear. “You’ve then got to do all these experiments, which will take years and cost a fortune,” says Holmes.

This is where machine learning might provide a short cut. Rather than attempting to fully characterize every new virus, models could be used to flag high-priority targets for further investigation. “What we need is a triaging system downstream, so we know which viruses need to be characterized with in-depth virology studies,” says Sara Sawyer, a virologist at the University of Colorado, Boulder.

Similar Posts