[논문이야기] 감염병 모델링 ①

곽연숙 연구원 2023-07-02 09:002024-04-09 2024-04-09 16:01

끊임없는 감염병 위협, ‘기후 온난화’가 주된 이유로 손꼽혀 감염병 연구의 두 줄기, ‘기계론적 모델링’과 ‘현상학적 모델링’ 제대로 된 감염병 분석 위해서는 오류부터 정확하게 파악해야

COVID-19가 본격적으로 창궐했던 2020년을 기점으로 벌써 3여년의 시간이 흘렀다. 이제는 한국도 위드코로나 정책으로 COVID-19와 공생해 나가고 있는 시점이다. 실제 지난 5월 정부 당국은 사실상 COVID-19 ‘엔데믹'(endemic・일상적 유행)을 선언하면서 국민 일상 회복을 도모했다.

그러나 전염병 전문가들은 아직 긴장의 끈을 놔서는 안된다고 당부한다. 전문가들은 코로나가 완전히 사라진 건 아니며 빠르면 2~3년 이내에 코로나 신종 변이 및 새로운 감염병이 발생할 수 있다는 예측을 내놓는다. 2023년 초 차원이 다른 엄청난 전파력으로 세계 보건 당국을 긴장시켰던 오미크론 변이가 대표적인 예다. 당시 백신이라는 무기가 존재했음에도 불구하고, 쏟아지는 확진자를 감당하지 못해 감기약 품귀 현상이 발생하기도 했다.

이처럼 예상치 못한 신종 감염병, 변이가 인류를 끊임없이 위협하는 원인은 무엇일까. 하버드 대학교 공중 보건학과의 아티클에서는 기후 온난화에서 그 이유를 찾는다. 해당 글에 따르면 지구온난화로 고온 다습한 환경이 크게 늘면서 신종 바이러스가 증가하고, 이를 매개하는 모기나 박쥐 등의 서식지가 넓어졌다고 한다. 여기에 항공기 등 교통 발달과 여행객의 증가로 문명과 자연의 접촉이 급격히 많아지면서 우리가 알지 못하는 감염병이 발생할 가능성이 과거에 비해 높아졌다는 분석이다.

이에 따라 감염병과 관련된 연구들은 활발히 이뤄지고 있다. 해당 연구들에서는 ‘실질 재생산 지수’를 적극 활용한다. ‘실질 재생산 지수’는 방역정책의 효과 평가 및 감염전파 양상을 감시하는데 중요하게 활용되는 지표다. 보건 당국은 실질 재생산 지수를 통해 감염병 대응 정책을 강구하며, 앞으로의 전염병을 대비한다. 일반 사람들 또한 COVID-19에 대한 질병청의 여러 보고 내용들을 통해 실질 재생산 지수라는 말이 꽤나 익숙해져 있을 것이다.

필자는 실질 재생산 지수를 활용한 감염병 모델링에는 어떤 수리통계적 방법론이 적용되고 있는지 궁금해서 관련 연구들을 조사하게 됐다. 본 글에서는 수학 공식과 생태학적 전문 내용들은 최대한 배제하고 일반적인 언어로 풀어내려고 한다.

기존 감염병 연구들의 고려 사항

그간 수행된 감염병 연구에서 주로 고민했던 부분은 다음과 같다.

어떤 사회적 행동(social behavior)이 질병의 전파를 초래했는가? 이를 정량적으로 측정할 수 있는가?
각종 약학적(pharmaceutical), 비약학적(non-pharmaceutical) 개입 중 어떤 요인(factor)가 질병 전파를 방지하는데 실질적인 도움을 주는가?
혈청 데이터(serological data)와 수리적 모델을 접목한 감염역학(infection dynamics)이 실제 현실의 질병 전파를 제대로 설명할 수 있는가?

필자는 이중에서도 COVID-19 모델링 분야에 활용된 고전적인 수리통계학적 감염병 모델을 살펴보고, 나아가 여기서 주요하게 논의되는 실질 재생산 지수에 대해 얘기해 보고자 한다.

감염병 모델의 종류

현실 세계는 복잡하기에, 감염자 수 증가 추이는 단순히 기하급수적으로 증가하지는 않는다. 즉 대부분의 감염자 누적 수는 질병 초기에는 기하급수적으로 증가하는 모습을 보이나, 어느 시점을 넘어서게 되면 전염병 규모는 포화되는 양상을 보인다.

예를 들어 보자. 감염병이 발생하면 왜 모든 사람이 감염되지 않을까? 전염병의 초기에는 감염될 사람이 많다. 즉 매일 감염되는 사람이 회복하는 사람보다 훨씬 더 많다. 그러나 시간이 지나면서 감염 대상군들은 점점 줄고, 회복된 사람의 수가 충분해서 전염병이 계속 퍼질 수 없는 상태에 도달하게 된다.

이 때 우리는 감염병 추이를 보다 정확하게 분석하기 위해 다양한 모델들을 적용해 볼 수 있다. 큰 범주로는 기계론적 모델과 현상학적 모델로 나눌 수 있다. SIR 모델과 같은 기계론적 모델들은 질병 확산에 영향을 미치는 요인을 이해하는데 사용된다. 반면 logistic 모델과 같은 현상학적 모델들은 전염병의 진행 상황을 예측하는 데 사용된다. 감염자 수를 범위로 알려주는 것이 현상학적 모델의 예다.

단순 기계론적 모델이 전염병 과정을 충분히 설명할 수 없다면, 현상학적 모델을 사용하는 것이 수치적으로는 더 나은 선택이 될 수 있다. 왜냐하면 logistic 모델들은 좀 더 수학 공식에 기반하고 있기 때문이다.

SIR 모델, $\mu$(사망률), $\mu.$S(모든 사람이 susceptible이라고 가정했을때, 인구의 하루 출생 수), $\mu$S. $\mu$l. $\mu$R. (하루에 사망하는 개인의 수), $\mu$IR(하루에 회복되는 감염된 개인의 수)

기계론적 모델의 대표적인 예시인 SIR 모델을 살펴보자. SIR(Susceptible-Infectious-Recovered)을 기본 구조로, 각 세개의 인구수 변화율을 상미분 방정식(ordinal differential equation)을 사용해 풀어낼 수 있다. 이 미분 방정식을 통해 이후 논의될 실질 재생산 지수를 얻어낼 수 있다.

한편 현실 세계의 복잡성을 추가적으로 반영하기 위해 위 모델의 S와 R 사이에 세부 구획들(compartments)을 추가하는 모형을 활용하기도 한다. 이를테면 아래 그림의 SEIR(Susceptible Infected but not infectious(E) Infected and Infectious(I) Recovered) 모형이 있다.

SEIR 모형/출처=Reproduction number(R) and growth rate(r) of the COVID-19 epidemic in the UK: methods of estimation, data sources, causes of heterogeneity, and use as a guide in policy fornulation, Royal society journal. 2020

이처럼 두 모델을 나눠 설명하고 있지만, 기계론적 모델은 현상학적 모델과 결합해 사용되기도 한다. 예컨대 기계론적 모델은 질병의 발생기간(generation time) 등의 현상을 설명하기 위해 분포(distribution)를 사용하기도 하며, 이 때 예측의 정확도를 끌어올리기 위해 현상학적 모델을 결합한다.

파라미터 추정: 오차의 종류에 따른 고려가 필요

세부적인 모델의 구성은 다를지라도, 대부분의 감염병 연구들은 큰 틀에서 공통적으로 아래의 구조를 따른다고 볼 수 있다.

모델 제안
모델 파라미터 중 일부는 선행 연구들의 값 활용
나머지 파라미터는 데이터로부터 최소제곱법(Least Square Estimation, LSE), MLE(Maximum Likelihood Estimation, MLE)등의 추정방법을 활용

제대로 된 연구들에서는 해당 모델의 파라미터가 유의미한지 통계적으로 검증하는 작업을 거친다. 즉 현실에서 측정된 데이터와 연구의 파라미터 값을 비교함으로써 해당 값이 일관적(consistent)인지 확인해봐야 한다는 것이다.

추정(Estimation) 방법은 다양하다. 전염병 분석에서는 분포를 활용하는 경우가 많고, 또 분포를 알고 있으면 MLE를 사용해 추정하는 것이 통계적으로 가장 나은 방법이라는 것이 알려져 있다.

한편 t+1시간의 사건은 t시간의 사건에 영향을 받을 수 밖에 없다. 결국 다른 시간때에서는 독립적이지 않을 수 있다는 것이다. 실제로 전염병의 사건들은 횟수(count) 변수이며, 평균과 분산은 긴밀하게 연관돼 있을 수 밖에 없다. 즉 오차가 동일하게 정규분포하지 않을 수 있다는 것이다.

이처럼 오류가 동일하게 정규분포하지 않을시 통계학적 모델링은 예측의 정확성을 담보하지 못하게 된다. 본 [논문이야기]에서는 이러한 문제점들을 MLE 추정을 예시로 과정을 설명해 보려고 한다.

오류의 종류

먼저 오류(error)의 분포가 시스템 오류(process error)인지, 관측 오류(observation error)인지에 따라 생각해 봐야한다. 시스템 오류는 모델에 의해 발생하는 오류를 말하며, 관측 오류는 값이 데이터가 측정될 때와 관련된 오류를 말한다.

다시 말해 프로세스 오류는 감염자가 회복되는 시간과 감수성(suceptibility)이 있는 개인이 감염되는 시간은 관찰 오류를 모두 제거하더라도 언제든지 새로운 감염자 수에 영향을 미치는 오류며, 관측 오류는 사망이 코로나로 인한 원인인지, 다른 합병증 때문인지 알 수 없는 오류를 말한다.

위 개념으로 비춰 볼 때, 관측 오류는 서로 간 독립(independent)이고, 시스템 오류는 초반 시기와 후반 시기의 오차가 주로 연관될 가능성이 크며, 프로세스 오류는 관측 오류에 독립적이라고 가정하는 것이 충분히 합리적이다.

[논문이야기] 감염병 모델링 ②로 이어집니다

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ②

송정훈 연구원 2022-09-02 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ①에서 이어집니다. 이전 글에서 언급했듯 에너지원 수급,생산,수송,설비 투자 등에 관한 효율적 의사결정을 위해서는 무엇보다도 에너지 사용량 추정이 정확하게 이뤄져야만 한다. 이번 글에서는 기존 연구들이 어떻게 ‘통계적으로’ 에너지 사용량을 추정했는지 개략적으로 살펴보고, 나아가 ‘계절적 추이’를 반영해야하는 이유를 짚어본다. 에너지 사용량을 현실적으로 추정하기 위한 방법, ‘회귀분석’ 이상적으로는,…

[논문이야기] Interpretable Topic Analysis ③

김민철 연구원 2023-01-18 09:002023-07-12 AI/DS논문이야기

[논문이야기] Interpretable Topic Analysis ②에서 이어집니다 이전 글에서는 GloVe를 본 연구의 핵심 워드 임베딩 기술로 사용하게 된 배경을 살펴보고, 나아가 그래프 표현을 통해 ‘토픽 내 단어간 관계’를 심도 깊게 반영하는 GTRF를 소개했습니다. 위 논의를 기반으로, 이번 글에서는 본 [논문이야기]의 핵심인 ‘GNTM(Graph Neural Topic Model)’를 살펴봅니다. GNTM은 higher order GNN(Graph Neural Network, 그래프 신경망)을 활용합니다. 즉,…

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ③

송정훈 연구원 2022-09-05 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ②에서 이어집니다. 이전 글에서 기존 개별 건축물의 에너지 사용량은 종속 변수는 (각 월별) 에너지 사용량으로, 독립 변수는 연면적,총수, 재질 등의 건축물 속성으로 하는 회귀(Regression) 기반의 모델로 추정된다고 설명했다. 아울러 이전 글 말미에, 기존 연구가 2차 모멘트(2nd moment) 계산이 반영되지 않았기 때문에 현실을 제대로 설명하지 못한다고도…

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ④

송정훈 연구원 2022-09-06 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ③에서 이어집니다. 이전 글(1,2,3)까지를 통해 필자는 에너지 사용량 추정의 필요성, 이와 관련된 기존 연구의 한계, 그리고 이를 개선하기 위해 종국적으로는 서로 다른 식들의 오차항들 간 ‘상관관계(correlation)’, 즉 2차 모멘트 행렬의 계산이 통계 모델에 포함돼야 한다고 설명했다. 이번 글에서는 이 같은 상관관계를 모델에 반영하는 통계적 방법론을…

[논문이야기] NGCF의 소개 ③

한성수 연구원 2023-06-07 09:002023-07-10 AI/DS논문이야기

[논문이야기] NGCF의 소개 ②에서 이어집니다 이전 글을 통해 추천 알고리즘의 가장 기본적인 형태인 ‘콘텐츠 기반 필터링’과 ‘협업 필터링’을 간락히 살펴봤습니다. 또한 ‘유저와 아이템간 관계’를 비선형적 영역으로 확장하는 협업 필터링을 신경망 협업 필터링(Neural Collaborative Filtering, NCF)을 소개한 바 있습니다. 이번 글에서는 협업 필터링의 구조를 조금 더 자세히 이해해보고, 나아가 ‘신경망 그래프 협업 필터링(NGCF)’이 나오게 된 배경을…

건축물 별 월간 전기/가스 사용량 예측: 결합확률분포 모델 기반 예측

하태성 연구원 2023-05-15 20:432024-02-16 AI/DS논문이야기

우리는 집에서 전기와 가스를 사용하고 매달 전기요금 고지서와 가스요금 고지서를 받는다. 여름에는 더위 때문에 에어컨을 많이 사용하고는 전기 요금이 많이 나올까 걱정하고, 겨울에는 추위 때문에 난방을 온종일 틀어놓고 비싼 가스 요금을 걱정하기도 한다. 송정훈 박사는 지난 5월 12일 개최된 ‘데이터사이언스경영학회 2023년 제1차 세미나’에서 한국에너지공단이 공개한 위의 통계자료를 지적하며, 이러한 전기와 가스 소비는 가정뿐만 아니라 비주거용…