측정오차 하 광고 시계열 모델링 연구: Poisson Time Series 및 Poisson Kalman Filter를 중심으로

1
pabii research
지난 12일 ‘데이터사이언스경영학회 제1차 세미나’에서 박정우 학회원이 ’측정오차 하 광고 시계열 모델링 연구’ 논문에 대해 설명하고 있다/사진=데이터사이언스 경영 연구소

코로나19 팬데믹은 우리의 일상 전반의 변화와 함께 디지털 전환을 가속했다. 집에서 보내는 시간이 길어지면서 유튜브, 모바일 콘텐츠, 온라인동영상서비스(OTT) 등 미디어 시청 패러다임의 변화는 물론, 소비의 중심축이 오프라인에서 온라인으로 움직이면서 디지털 광고 시장 또한 급격하게 성장했다. 실제로 최근 한국방송광고진흥공사가 발표한 ‘2022년 방송통신광고비 조사’에 따르면 대부분 매체의 방송광고비는 감소했지만 2023년 추정 온라인광고비는 8조8400억원으로 전년 대비 10% 증가하는 등 매년 증가하는 추세를 보이고 있다.

디지털 광고 시장이 전통 광고와 가장 크게 구별되는 점은 ‘추적가능성(Trackability)’이다. 예컨대 디지털 광고는 온라인상에서 회원가입, 물품 조회, 구매 등 광고 반응 이후의 행동을 유저 단위로 추적함으로써 유저에 대한 개별화된 분석을 통해 마케팅 의사결정이 가능하다.

지난 5월 12일 개최된 ‘데이터사이언스 경영학회(Managerial Data Science Association, 이하 MDSA) 2023년 제1차 세미나’에서 박정우 MDSA학회원은 “디지털 광고의 유저 데이터를 제대로 활용하기 위해서는 측정오차(Measurement error)를 적절한 통계 테크닉을 이용해 제거하는 과정이 선행되어야 한다”고 강조했다. 측정오차란 데이터에 특정 요소가 영향을 미쳐 측정 결과가 참값과 다른 현상을 의미하는데, 디지털 광고의 경우 데이터 송수신 불안정, 유저 광고반응 지연 등으로 데이터가 제대로 집계되지 않는 이슈로 인해 이에 대한 이해가 없이는 합리적인 모델링이 불가능하다는 것이다.

위의 시각을 반영한 박 회원의 논문 “측정오차 하 광고 시계열 모델링 연구: Poisson Time Series 및 Poisson Kalman Filter를 중심으로”는 측정오차가 예측 모델에 어떤 영향을 미치는지 검증하고, 나아가 이를 통계적 방법론으로 보정한 ‘광고 성과 예측 모델’을 제안한다.

‘해석적(Analytic)’ 관점에서 랜덤 측정오차는 계수에 편향(Bias) 및 비일치성(Inconsistency)을 유발하며, ‘예측적(Predictive)’ 관점에서는 잔차의 분산 증가로 인한 모형 적합도(Goodness of fit)에 악영향을 주게 된다. 이런 이유로 광고가 송출되는 매체사에서는 측정오차를 줄이기 위해 누락된 데이터를 반영하거나 유효하지 않은 데이터를 제외하는 등 데이터를 지속적으로 갱신하는 작업을 거치며, 해당 작업은 통상 1주일까지 진행되는 것으로 알려져 있다.

먼저, 박 회원은 본 논문에 사용된 첫 번째 통계 모델인 ‘포아송 시계열 모델(Poisson Time Series Model)’에 대해 간략히 소개했다. 그는 광고 성과를 종속 변수, 7일 전까지의 지출 광고비를 독립변수로 하는 일반화 선형 모델(Generalized Linear Model)을 연구에 활용했다. 박 회원은 “포아송 가정을 통해 종속변수를 더 자연스럽게 모델링할 수 있다”며 한편으로는 “GLM의 경우 잔차의 이분산성을 가정하지 않으므로 우려했던 측정 오차의 일정 부분을 회피할 수 있었다”고 전했다.

이어 박 회원은 계절성(Seasonality) 및 고려하지 못한 잔차의 효과가 영향을 줄 수 있다는 점을 반영해 포아송 분포 기반의 AR(Autoregressive), MA(Moving Average) 항을 추가했다고 설명했다.

다음으로 박 회원은 본 논문에 사용된 두 번째 통계 모델인 ‘포아송 칼만 필터 모델(Poisson Kalman Filter Model)’에 대해 설명했다. 칼만 필터는 상태 방정식(State Equation)을 통해 관측 방정식(Observation Equation)의 오차를 내재적으로 해결하는 통계적 기법이다. 이때 본 논문에서 상태 방정식은 선형 칼만 필터(Linear Kalman Filter)와 마찬가지로 정규 분포를 가정했다. 나아가 박 회원은 종속 변수로 개수(Count) 데이터를 가정한 부분에 주목, 관측 방정식을 로그 링크(log-link)로 변환한 포아송 칼만 필터 모델을 청중들에게 소개했다.

박 회원은 측정 오차의 영향을 검증하기 위해 도구 변수로 ‘광고 노출수(Impression)’을 채택하고 2SLS(2 Stage Least Square)를 수행했다. 이는 노출 수와 광고비의 상관관계가 높고(High Relevance), 도메인 관점에서 광고비에서 노출 수의 영향을 제거한 잔차와의 상관관계는 0인 점(Validity)에서 기인한 것이다.

지금까지 논의를 바탕으로, 박 회원은 본격적으로 모델에 ‘측정오차’가 미치는 영향을 각종 통계적 테스트를 통해 확인하는 과정을 거쳤다. 결과적으로, 측정오차의 크기가 커질수록 모델의 예측정확도는 평균적으로 하락하는 반면, 데이터 크기가 커질수록 예측정확도의 하락 폭은 감소하는 것을 확인할 수 있었다. 또한 앞서 박 회원이 제안한 두 모델을 비교했을 때, 데이터 크기가 작을 때는 포아송 칼만 필터가 예측정확도 및 견고성(Robustness) 관점에서 모두 우월하지만, 데이터 크기가 커지면서 포아송 시계열 모델이 점차 더 나은 성능을 보이는 것을 확인했다.이를 통해 박 회원은 “데이터가 커질수록 측정오차의 영향이 줄어드는 점을 고려할 때, 광고 도메인에서 장기간 광고를 집행할 때는 측정오차가 모형 적합도 등에 큰 영향을 주지는 않지만, 광고 집행 초기에는 측정오차의 영향이 중요해 이를 고려해야 한다”고 정리했다.

추가로, 박 회원은 위 두 모델이 데이터 크기에 따라 상호 이질적(heterogenous)인 성격을 가진 부분에 주목해, 앙상블(Ensemble) 계열의 스태킹(Stacking) 기법을 제안했다. 테스트 결과, 위의 단일 모형들 대비 제시한 앙상블 모델이 예측정확도 및 견고성 측면에서 우월한 것을 확인했다.

아래는 논문 발표 이후 박 회원이 받은 질문과 답변을 요약한 것이다.

(1) 본 연구의 광고 데이터가 측정 오차를 적게 포함하는 일종의 선택 편향(selection bias)이 발생해서 측정 오차의 영향을 저평가한 것은 아닌가.

답변) 본 연구는 광고 도메인에서 측정 오차가 허용되는 범위 안에서 측정오차의 크기를 변경하며 데이터를 시뮬레이션했음을 밝힌다. 도메인 관점에서 측정오차에 의해 광고비가 10% 이상 변화하는 경우는 거의 존재하지 않는 점을 조심스럽게 말씀드린다.

(2) 본 연구의 방법론 중 하나인 하우즈만 검정(Hausman test)의 경우, 측정오차의 영향을 민감하게 잡아내지는 못할 것으로 생각된다. 차라리 측정오차가 어느 정도 이상이면 경고(alert) 하는 관점으로 보는 것은 어떤가.

답변) 말씀주신 것처럼 대표본에서는 하우즈만 검정이 측정오차의 영향을 민감하게 잡지 못하지만, 이는 연구 질의에서 예상한 것과 동일한 결과로 생각한다. 소표본에서는 하우즈만 검정이 유의하게 나타나고 있다. 또한 말씀주신 것처럼 비즈니스 영역에서 유연성 있게 활용하기 위해서는 alert 모델링도 충분히 엣지가 있을 것으로 생각한다.

(3) 본 연구는 측정 오차는 7일 이내의 데이터에서만 발생하기 때문에, 데이터 크기가 커지면서 측정 오차의 역할이 작아지는 것에 대해서는 당연한 것 아닌가.

답변) 본 논문은 도메인 환경에서 다양한 경우에 따른 측정오차의 영향을 통계적으로 검정했고, 나아가 제안한 예측 모형을 통해 광고 효과를 정교하게 예측할 수 있다는 점에서 의의가 있다고 생각한다.

Similar Posts