[논문이야기] 감염병 모델링 ①

끊임없는 감염병 위협, ‘기후 온난화’가 주된 이유로 손꼽혀 감염병 연구의 두 줄기, ‘기계론적 모델링’과 ‘현상학적 모델링’ 제대로 된 감염병 분석 위해서는 오류부터 정확하게 파악해야

Policy Korea

COVID-19가 본격적으로 창궐했던 2020년을 기점으로 벌써 3여년의 시간이 흘렀다. 이제는 한국도 위드코로나 정책으로 COVID-19와 공생해 나가고 있는 시점이다. 실제 지난 5월 정부 당국은 사실상 COVID-19 ‘엔데믹'(endemic・일상적 유행)을 선언하면서 국민 일상 회복을 도모했다.

그러나 전염병 전문가들은 아직 긴장의 끈을 놔서는 안된다고 당부한다. 전문가들은 코로나가 완전히 사라진 건 아니며 빠르면 2~3년 이내에 코로나 신종 변이 및 새로운 감염병이 발생할 수 있다는 예측을 내놓는다. 2023년 초 차원이 다른 엄청난 전파력으로 세계 보건 당국을 긴장시켰던 오미크론 변이가 대표적인 예다. 당시 백신이라는 무기가 존재했음에도 불구하고, 쏟아지는 확진자를 감당하지 못해 감기약 품귀 현상이 발생하기도 했다.

이처럼 예상치 못한 신종 감염병, 변이가 인류를 끊임없이 위협하는 원인은 무엇일까. 하버드 대학교 공중 보건학과의 아티클에서는 기후 온난화에서 그 이유를 찾는다. 해당 글에 따르면 지구온난화로 고온 다습한 환경이 크게 늘면서 신종 바이러스가 증가하고, 이를 매개하는 모기나 박쥐 등의 서식지가 넓어졌다고 한다. 여기에 항공기 등 교통 발달과 여행객의 증가로 문명과 자연의 접촉이 급격히 많아지면서 우리가 알지 못하는 감염병이 발생할 가능성이 과거에 비해 높아졌다는 분석이다.

이에 따라 감염병과 관련된 연구들은 활발히 이뤄지고 있다. 해당 연구들에서는 ‘실질 재생산 지수’를 적극 활용한다. ‘실질 재생산 지수’는 방역정책의 효과 평가 및 감염전파 양상을 감시하는데 중요하게 활용되는 지표다. 보건 당국은 실질 재생산 지수를 통해 감염병 대응 정책을 강구하며, 앞으로의 전염병을 대비한다. 일반 사람들 또한 COVID-19에 대한 질병청의 여러 보고 내용들을 통해 실질 재생산 지수라는 말이 꽤나 익숙해져 있을 것이다.

필자는 실질 재생산 지수를 활용한 감염병 모델링에는 어떤 수리통계적 방법론이 적용되고 있는지 궁금해서 관련 연구들을 조사하게 됐다. 본 글에서는 수학 공식과 생태학적 전문 내용들은 최대한 배제하고 일반적인 언어로 풀어내려고 한다.

기존 감염병 연구들의 고려 사항

그간 수행된 감염병 연구에서 주로 고민했던 부분은 다음과 같다.

  • 어떤 사회적 행동(social behavior)이 질병의 전파를 초래했는가? 이를 정량적으로 측정할 수 있는가?
  • 각종 약학적(pharmaceutical), 비약학적(non-pharmaceutical) 개입 중 어떤 요인(factor)가 질병 전파를 방지하는데 실질적인 도움을 주는가?
  • 혈청 데이터(serological data)와 수리적 모델을 접목한 감염역학(infection dynamics)이 실제 현실의 질병 전파를 제대로 설명할 수 있는가?

필자는 이중에서도 COVID-19 모델링 분야에 활용된 고전적인 수리통계학적 감염병 모델을 살펴보고, 나아가 여기서 주요하게 논의되는 실질 재생산 지수에 대해 얘기해 보고자 한다.

감염병 모델의 종류

현실 세계는 복잡하기에, 감염자 수 증가 추이는 단순히 기하급수적으로 증가하지는 않는다. 즉 대부분의 감염자 누적 수는 질병 초기에는 기하급수적으로 증가하는 모습을 보이나, 어느 시점을 넘어서게 되면 전염병 규모는 포화되는 양상을 보인다.

예를 들어 보자. 감염병이 발생하면 왜 모든 사람이 감염되지 않을까? 전염병의 초기에는 감염될 사람이 많다. 즉 매일 감염되는 사람이 회복하는 사람보다 훨씬 더 많다. 그러나 시간이 지나면서 감염 대상군들은 점점 줄고, 회복된 사람의 수가 충분해서 전염병이 계속 퍼질 수 없는 상태에 도달하게 된다.

이 때 우리는 감염병 추이를 보다 정확하게 분석하기 위해 다양한 모델들을 적용해 볼 수 있다. 큰 범주로는 기계론적 모델과 현상학적 모델로 나눌 수 있다. SIR 모델과 같은 기계론적 모델들은 질병 확산에 영향을 미치는 요인을 이해하는데 사용된다. 반면 logistic 모델과 같은 현상학적 모델들은 전염병의 진행 상황을 예측하는 데 사용된다. 감염자 수를 범위로 알려주는 것이 현상학적 모델의 예다.

단순 기계론적 모델이 전염병 과정을 충분히 설명할 수 없다면, 현상학적 모델을 사용하는 것이 수치적으로는 더 나은 선택이 될 수 있다. 왜냐하면 logistic 모델들은 좀 더 수학 공식에 기반하고 있기 때문이다.

SIR 모델, $\mu$(사망률), $\mu.$S(모든 사람이 susceptible이라고 가정했을때, 인구의 하루 출생 수), $\mu$S. $\mu$l. $\mu$R. (하루에 사망하는 개인의 수), $\mu$IR(하루에 회복되는 감염된 개인의 수)

기계론적 모델의 대표적인 예시인 SIR 모델을 살펴보자. SIR(Susceptible-Infectious-Recovered)을 기본 구조로, 각 세개의 인구수 변화율을 상미분 방정식(ordinal differential equation)을 사용해 풀어낼 수 있다. 이 미분 방정식을 통해 이후 논의될 실질 재생산 지수를 얻어낼 수 있다.

한편 현실 세계의 복잡성을 추가적으로 반영하기 위해 위 모델의 S와 R 사이에 세부 구획들(compartments)을 추가하는 모형을 활용하기도 한다. 이를테면 아래 그림의 SEIR(Susceptible Infected but not infectious(E) Infected and Infectious(I) Recovered) 모형이 있다.

SEIR 모형/출처=Reproduction number(R) and growth rate(r) of the COVID-19 epidemic in the UK: methods of estimation, data sources, causes of heterogeneity, and use as a guide in policy fornulation, Royal society journal. 2020

이처럼 두 모델을 나눠 설명하고 있지만, 기계론적 모델은 현상학적 모델과 결합해 사용되기도 한다. 예컨대 기계론적 모델은 질병의 발생기간(generation time) 등의 현상을 설명하기 위해 분포(distribution)를 사용하기도 하며, 이 때 예측의 정확도를 끌어올리기 위해 현상학적 모델을 결합한다.

파라미터 추정: 오차의 종류에 따른 고려가 필요

세부적인 모델의 구성은 다를지라도, 대부분의 감염병 연구들은 큰 틀에서 공통적으로 아래의 구조를 따른다고 볼 수 있다.

  • 모델 제안
  • 모델 파라미터 중 일부는 선행 연구들의 값 활용
  • 나머지 파라미터는 데이터로부터 최소제곱법(Least Square Estimation, LSE), MLE(Maximum Likelihood Estimation, MLE)등의 추정방법을 활용

제대로 된 연구들에서는 해당 모델의 파라미터가 유의미한지 통계적으로 검증하는 작업을 거친다. 즉 현실에서 측정된 데이터와 연구의 파라미터 값을 비교함으로써 해당 값이 일관적(consistent)인지 확인해봐야 한다는 것이다.

추정(Estimation) 방법은 다양하다. 전염병 분석에서는 분포를 활용하는 경우가 많고, 또 분포를 알고 있으면 MLE를 사용해 추정하는 것이 통계적으로 가장 나은 방법이라는 것이 알려져 있다.

한편 t+1시간의 사건은 t시간의 사건에 영향을 받을 수 밖에 없다. 결국 다른 시간때에서는 독립적이지 않을 수 있다는 것이다. 실제로 전염병의 사건들은 횟수(count) 변수이며, 평균과 분산은 긴밀하게 연관돼 있을 수 밖에 없다. 즉 오차가 동일하게 정규분포하지 않을 수 있다는 것이다.

이처럼 오류가 동일하게 정규분포하지 않을시 통계학적 모델링은 예측의 정확성을 담보하지 못하게 된다. 본 [논문이야기]에서는 이러한 문제점들을 MLE 추정을 예시로 과정을 설명해 보려고 한다.

오류의 종류

먼저 오류(error)의 분포가 시스템 오류(process error)인지, 관측 오류(observation error)인지에 따라 생각해 봐야한다. 시스템 오류는 모델에 의해 발생하는 오류를 말하며, 관측 오류는 값이 데이터가 측정될 때와 관련된 오류를 말한다.

다시 말해 프로세스 오류는 감염자가 회복되는 시간과 감수성(suceptibility)이 있는 개인이 감염되는 시간은 관찰 오류를 모두 제거하더라도 언제든지 새로운 감염자 수에 영향을 미치는 오류며, 관측 오류는 사망이 코로나로 인한 원인인지, 다른 합병증 때문인지 알 수 없는 오류를 말한다.

위 개념으로 비춰 볼 때, 관측 오류는 서로 간 독립(independent)이고, 시스템 오류는 초반 시기와 후반 시기의 오차가 주로 연관될 가능성이 크며, 프로세스 오류는 관측 오류에 독립적이라고 가정하는 것이 충분히 합리적이다.

[논문이야기] 감염병 모델링 ②로 이어집니다

Similar Posts