[논문이야기] 감염병 모델링 ②

곽연숙 연구원 2023-07-03 09:002024-04-05 2024-04-05 15:02

오차의 종류 및 상황에 따라 적절한 모델링 적용돼야 실질 재생산 지수 통해 보건 정책 및 감염병 대응 전략 수립 모델의 강건함 위해서는 데이터 수, 변수, 개개인 특성이 충분히 고려돼야

[논문이야기] 감염병 모델링 ①에서 이어집니다.

이전 글에 이어 이번 글에서는 오류가 발생하는 다양한 상황에 따라 모델링 방법이 어떻게 달라져야 하는지 살펴보고, 나아가 구체적인 상황에서 각 모델마다 MLE 추정치가 어떻게 형성되는지 알아본다.

케이스 별 감염병 모델링 방법

이러한 오차의 특성을 고려해서, 다음과 같은 경우로 나눠서 감염병 모델링을 수행해 볼 수 있다.

case 1) 시스템 오차는 무시할 만한 수준인 반면, 관측 오차가 클 때: 임의의 새로운 사건은 관측값에 독립적으로 분포한다고 가정한다. 예컨대 포아송 분포(poisson distribution)에 따라, ‘감염자 수’는 t시간에 독립적으로 분포한다고 가정할 수 있다.

case 2) 시스템 오차가 보통 정도의 수준이며, 관측 오차가 큰 경우: 과하게 분산된 분포(overly dispersed distribution)을 사용해 추정한다. 예컨대 음이항분포(negative binomial distribution)를 활용해서 감염자 수를 모델링한다.

case 3) 시스템 오차가 크며, 관측 오차를 제외할 수 있는 경우: 이제는 시간 t와 t+1의 각각 감염자 발생 사건이 서로 독립적이지 않게 된다. 그러므로 모든 발생하는 사건들에 대해서 t사건이 주어졌을 때의 t+1 사건의 확률질량함수를 구해내야 한다.

case 4) 시스템 오차와 관측 오차 모두 크게 나타나는 경우: 이 경우 MLE로 파라미터를 추정하기 어려워지기 때문에 case 3으로 타협해야 한다. 그리고 이렇게 될 경우 MLE로 추정한 신뢰 구간(Confidence Interval)이 영향을 받게 될 수 밖에 없다.

시스템 오류는 무시할만한 수준, 관측 오류는 푸아송 분포일 때의 MLE

지금까지 논의한 ‘오차에 따른 모델링’을 좀 더 구체적으로 이해해본다는 차원에서, 시스템 오차가 무시할 만한 수준이며 관측 오차는 포아송 분포로 가정(case 1)하여 MLE 추정치를 살펴보자. 아래 그림의 위 그래프는 각 모델별 지수적 증가율(exponential growth rate)을, 아래 그래프는 각 모델별 주별 감염자수 곡선(epidemic curve)을 보여주고 있다.

설명/출처=Estimating epidemic exponential growth and basic reproduction number, Juliang ma. 2020.

지수(exponential) 모델의 예측력(MLE)은 시간이 지날수록 빠르게 감소하는 것을 확인할 수 있다. 한편 logistic 모델과 Richards 모델은 유행병 최고조 시기(약 10주차 근방)에서 MLE 관점에서 높은 성능을 내고 있는 것을 확인할 수 있다. 마지막으로 SIR 모델은 모든 감염병 시기에서 일관적으로 양호한 예측력을 나타냈다. 한편 일간 데이터(daily data)를 사용하거나, 또 다른 구간 데이터를 사용한다면 결과가 달라질 수 있다는 점을 덧붙인다.

위에서 살펴봤던 것처럼, 오차를 어떻게 가정하느냐에 따라 추정 방법론은 다르게 적용된다. 그리고 각 오차 가정에 따라서 추정해야 하는 모델의 파라미터 숫자도 달라지게 된다. 심지어 파라미터의 수가 너무 많아지게 되면 자칫 오버피팅을 야기하게 될 수도 있다. 실제 위 그림 3의 결과에서도 나타났듯 비교적 파라미터를 많이 사용하는 SIR 모델과 logistic 모델은 신뢰 구간의 범위가 좁은 것을 확인할 수 있다. 신뢰 구간이 좁을수록 신뢰 수준이 낮다는 일반적인 상식을 고려하면, 적절한 모델링을 통해 파라미터의 수를 너무 크지 않게 조절하는 과정이 선행돼야 한다는 것을 알 수 있다.

실질 감염재생산 지수의 활용

위 그림에서는 한 사람 당 두 사람씩 감염을 시켜 나가지만, 실제는 더 큰 수가 감염될 수 있다. 이 때 한 명의 환자가 평균적으로 감염시키는 환자 수를 ‘실질 재생산 지수’라고 한다. 이는 보건 업계에서 감염병의 확산 정도를 판단하는데 요긴하게 사용된다. 예컨대 R이 0보다 크면 감염이 늘어날 수 있는 상태가 되는 것이고, 0보다 작으면 감염전파가 소강상태에 접어드는 것으로 이해할 수 있다. 2003년 초 아시아에서 발생한 사스 바이러스의 R은 2~3이었다. 또 인간이 박멸한 유일한 감염병인 천연두는 감염될 수 있는 전체 인구 집단 안에서 R이 4~6이었다.

실질 감염재생산 지수는 위의 SIR 모델 또는 여타 현상학적 모델 등을 통해 다양하게 추정된다. 실질 재생산 지수는 $R_t = $(접촉자수 x 질병에 걸릴 확률) X (평균 감염기간) 으로 볼 수 있는데, 이 때 $R_t$를 구하는 방법론이 다양하다는 것이다.

데이터 생성 과정에 맞는 통계 모델 수립의 필요성

DGP(Data Generating Process, 데이터 생성 과정)에 맞게 통계적 모델을 수립하는 것은 매우 중요하다. 이는 감염병 모델링에서도 마찬가지다. 이와 관련해 필자는 앞서 오차의 종류에 따라 적절하게 모델을 구축해야 한다고 설명한 바 있다. 이 밖에도 데이터에서 발생하는 시스템 오차(process error)를 보정하기 위해 질병의 발생시간(generation time)을 질병의 증상이 발현된 시점으로 되돌리는 전처리 작업을 수행한 연구들도 몇몇(1,2) 존재한다.

앞서 소개한 방법론들은 공통적으로 최대가능우도추정법(Maximum Likelihood Estimation, MLE) 계산을 통해 실질 재생산 지수의 ‘신뢰 구간(confidence interval)’을 제시하고 있다. 여기에 추가적으로 MCMC(Markov Chain Monte Carlo) 시뮬레이션을 통해 실질 재생산 지수 값 변화에 따른 감염자 수 변화 추이 또한 살펴볼 수 있다. 아울러 연구자는 데이터의 초기 값을 버리거나, 모델에 다른 나라 데이터를 대입해보는 등의 민감도 분석(Sensitivity Analysis)을 수행함으로써 모델이 불확실한 현실상황을 다방면으로 설명하고 있는지 확인할 수 있다.

모델의 강건함을 위해서는

그러나 이같은 방법론들은 데이터가 충분한 상황에서만 의미가 있다. 만약 데이터가 부족하다면 모델이 질병에 대해 충분히 학습하지 못해 재감염 등의 사건에 대해 제대로 설명할 수 없게 될 수 있다. 또 다른 예로 코로나19와 같은 질병은 DNA가 아닌 RNA 종류에 속하기 때문에 바이러스 자체가 불안정하고 복제과정에서 돌연변이가 훨씬 자주 발생하게 된다. 이 경우도 마찬가지다. 충분히 다양한 질병 데이터를 모델에 인풋으로 넣지 않는다면, 모델이 코로나로 인한 감염자 수를 과소 또는 과대 예측하게 될 것이다.

어떤 효과가 종속 변수의 변화를 이끌어내는지 확인하는 ‘인과 추론(causal inference)’을 위해서는 변수 선택을 신중히 할 필요가 있다. 특정 변수에 대해 다른 요인을 통제한 부분 효과(partial effect)를 확인하는 것이 인과 추론의 핵심인데, 이를 위해서는 모델에 ‘적절한’ 변수가 ‘최대한 많이’ 포함돼야 하기 때문이다.

한편 나이, 성별, 지역에 따라 군집 분석(clustering analysis)를 수행한 대부분의 기존 감염병 연구들은 ‘슈퍼전파자’를 모델에 반영하지 못하는 한계가 있다. 슈퍼전파자란 다른 사람보다 더 많은 바이러스를 옮기는 사람을 지칭한다. 이들은 일반적으로 면역 체계가 망가져 고농도의 바이러스를 보유해 많은 사람에게 감염을 일으키게 된다. 즉 기존 연구 모델들은 감염병을 나이, 성별, 지역이라는 ‘단체’ 특성만을 기반으로 분석해왔기 때문에, 망가진 면역 체계 등의 ‘개개인의 특성’까지는 미처 반영하지 못했다는 것이다.

최근에는 슈퍼 전파자의 팩터를 찾기 위한 연구도 진행되고 있는 등 기존 연구의 한계를 극복하기 위해 많은 추가 연구들이 나오고 있다. 그러나 우리가 접하는 데이터는 개개인의 병력까지 가지고 있지 않는 만큼 완벽하게 감염병 모델링을 수행하는 것은 어려울 것으로 보인다.

그렇다면 기존의 모델링은 의미가 없는 것일까? 모델의 정확도를 끌어올리기 위해 어디까지 정교하게 만들 것인지, 복잡도는 얼마나 높일지 결정하는 것은 쉽지 않은 문제다. 비용을 천문학적으로 지불해 개개인의 병력을 모두 수집해 모델에 포함시킨다고 하더라도, 이는 자연 현상을 설명하는 일반화된 모델로서는 의미가 없게 될 것이기 때문이다. 이처럼 기존 연구들이 어느 정도 한계를 가지고 있는 것은 부정할 수 없는 사실이다. 그러나 기존 연구들이 실질 재생산 지수를 통해 최소한 어떤 정책에 신호를 줄 수 있다는 점에서는 유용한 모델인 것도 자명한 사실이다.

Is bubble really bubble?

하태성 연구원 2023-05-16 23:232023-06-15 AI/DS논문이야기

버블은 금융 자산 또는 상품의 가격이 내재가치 또는 시장 컨센서스보다 훨씬 높을 때 발생한다. 이는 일반적으로 과열된 경제 상황을 설명할 때 주로 사용되는 표현이다. 문제는 버블이 꺼지면서 가격이 폭락하기 전까지는 대부분의 시장 참여자가 이를 버블이라고 인지하지 못한다는 것이다. 국제적으로 상호 연관성이 커진 오늘날 어느 한 나라의 버블은 세계 경제 전반에 큰 영향을 미치기 때문에 이를…

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ①

박정우 연구원 2022-12-12 09:002023-07-10 AI/DS논문이야기

디지털 광고는 매년 가히 폭발적으로 성장하고 있습니다. 특히 글로벌 팬데믹으로 인해 오프라인 시장이 크게 위축되던 시기에 소비의 중심축이 오프라인에서 온라인으로 옮겨가면서 디지털 광고는 전 세계 광고 시장의 메인스트림으로 자리잡게 됐습니다. 디지털 광고의 핵심은 단연 스마트폰입니다. 스마트폰 유저들이 PC, 노트북, 태블릿보다 우월한 편의성을 기반으로 언제 어디서나 웹에 접속할 수 있게 되면서 ‘웹 기반 매체’들이 새롭게 광고…

[논문이야기] 부동산 경매 시장의 할인/할증 요인 ①

유보현 연구원 2022-10-20 09:002023-07-10 AI/DS논문이야기

최근 부동산 시장이 심상치 않다. 전 세계적으로 긴축 기조가 시작됨에 따라, 전문가들 사이에서는 코로나19 이후 통화 완화 정책으로 엄청난 유동성 수혜를 봤던 국내 부동산 시장의 ‘거품’이 꺼지면서 실물시장 충격에 대비해야 하는 것 아니냐는 우려가 나온다. 작년 말부터 미국을 포함한 주요국 중앙은행을 중심으로 인플레이션을 대비하기 위해 기준금리 인상이 지속되고 있는 가운데, 이에 따라 주택가격이 하락하면서 가계의…

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ②

송정훈 연구원 2022-09-02 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ①에서 이어집니다. 이전 글에서 언급했듯 에너지원 수급,생산,수송,설비 투자 등에 관한 효율적 의사결정을 위해서는 무엇보다도 에너지 사용량 추정이 정확하게 이뤄져야만 한다. 이번 글에서는 기존 연구들이 어떻게 ‘통계적으로’ 에너지 사용량을 추정했는지 개략적으로 살펴보고, 나아가 ‘계절적 추이’를 반영해야하는 이유를 짚어본다. 에너지 사용량을 현실적으로 추정하기 위한 방법, ‘회귀분석’ 이상적으로는,…

[논문이야기] 부동산 경매시장의 버블 ②

박혜영 연구원 2022-11-25 09:002023-07-10 AI/DS논문이야기

[논문이야기] 부동산 경매시장의 버블 ①에서 이어집니다. 지난 글에 이어 이번 글에서는 버블의 의미와 역사, 그리고 버블이 반복되는 이유에 대해 살펴본다. 버블이란 버블(bubble)이란 이는 시장에 전반적으로 특정 자산이 과도하게 공급되면서, 해당 자산의 가격이 내재한 가치 또는 일반적인 수준보다 크게 형성되는 현상을 의미한다. 이는 과열된 경제 상황을 설명할 때 주로 사용되는 표현이기도 하다. 버블의 문제는, 거품이 꺼지면서…

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ①

한성수 연구원 2023-09-14 09:002023-09-18 AI/DS논문이야기

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? – 초록에서 이어집니다 Intro (Part 1) 저는 고양시 행신역 인근에서 마곡 나루역 근처 사무실로 출근하는 40대 초반 직딩입니다. 원래는 회사 셔틀로 출퇴근하고 있었지만, 최근 자전거에 취미가 생겨 집에서 회사까지 출퇴근을 자전거로 하고 있습니다. 자전거가 취미가 된 가장 큰 이유는 사실 서울시 공공자전거 사업인 따릉이에 대한 이미지가 굉장히 컸기 때문입니다….