[선거]출구조사 오차와 데이터 사이언티스트의 책임감

출구조사 오차 탓에 누군가는 웃다고 울고, 또 누군가는 울다가 웃게됐다
데이터 과학은 오차가 허락되는 학문이지만, 그렇다고 오차의 원인마저 무시하는 학문은 아냐
이번 오차의 원인은 지역, 연령, 성별 기반의 과거 모델이 후보별 특성을 고려 못했기 때문
패널 데이터 형태로 기본 데이터 구조를 바꾸 재접근하는 것도 도전해볼만한 방법

지난 22대 총선 투표가 종료되기 약 30분 전 무렵, 서울 동작을 지역구 나경원 후보 사무실 앞에 있던 방송3사 차량들이 허겁지겁 움직이기 시작했다. 출구조사에서 앞선 것으로 나온 같은 지역구 류삼영 후보 사무실로 급하게 이동하는 모습이었다. 출구조사가 투표 종료 시각인 오후 6시보다 1시간 전에 마감됐고, 실제 방송사들이 공표한 6시 정각보다 조금 일찍 결과를 알았던 탓에 현장 기자들이 발빠른 대응을 보였기 때문일 것이다.

나 후보가 그간 여론조사에서 앞서왔던데다 이번에 국회의원으로 당선될 경우 5선 중진 의원이 되고, 인기 정치인인 탓에 방송사들의 관심이 집중되었던 탓에 주요 방송사들이 모였던 것으로 보인다. 모 종편 방송사 차량 1대를 남기고 썰물처럼 빠져나갔던 방송사 차량들이 출구조사를 뒤집고 나 후보의 당선이 유력시 되자 다시 새벽 무렵에 슬그머니 나 후보 사무실 근처로 돌아왔다는 웃지못할 해프닝을 들으면서, 사소한 오차들이 거듭된 탓에 현장 기자들을 헛수고 시켰다는 생각도 들었고, 데이터 사이언티스트의 책임감을 뼈저리게 느끼게 됐다.

모델 오차가 낳은 해프닝에 누군가의 가슴은 미어졌다

방송사 기자들이 재빨리 짐을 싸서 나가는 걸 보던 나 후보 지역구 사무실의 관계자들은 어떤 감정이었을까? 오후 6시 출구조사 방송을 보기 전에 이미 기자들의 행동만 보고도 유·불리를 판단할 수 있었을 것이고, 선거 캠프 전체에 낙선의 그림자가 드리웠을 것이다. 그러다 새벽 늦게 염치없이 다시 찾아온 기자들을 보면서는 또 어떤 감정이 들었을까? 염치 불구하고 다시 나 후보 지역구 사무실을 찾아갔던 기자들도 부끄러웠을 것이고, 그들을 맞이하는 캠프 관계자들도 어색하기는 마찬가지였을 것이다.

그런 불편함을 만들어 낸 것은 출구조사와 사전투표를 합산하는 모델을 만들었던 데이터 사이언티스트다. 심지어 ‘AI예측’이라고 호기롭게 자랑했던 그 모델은 254개 지역구 중 무려 10개의 지역구에서 당선자 예측에 실패했다.

예측 실패가 두드러지게 나타났던 경기 남부 일대에서도 위의 나 후보 지역구 사무실과 비슷한 사례들이 연이어 알려졌다. 모델 설정을 잘못한 탓에 10일 밤부터 11일 오전까지 수 많은 사람들의 가슴이 미어졌다가 다시 환희에 사로잡히기도 했을 것이고, 또 누군가는 반대로 환호성을 지르다가 더 큰 낙차감에 빠지기도 했을 것이다. 그런 지역구가 ‘불과 10곳에 지나지 않는다’고 자화자찬할 수도 있겠지만, 그 모델의 ±오차는 수 많은 사람들의 의사 결정에 큰 영향을 줬다.

오차가 허락되는 학문과 허락되지 않는 학문

지난 2017년부터 2019년까지, 알파고 이후 한국에서도 ‘AI열풍’이 불면서 정부에서 발주하는 수 많은 프로젝트들에도 ‘인공지능’이라는 단어가 들어가기 시작했다. 그 프로젝트의 요건들을 보면 대부분 ▲반드시 딥러닝을 써야 함, ▲반드시 99.9%이상의 정확도를 보여야 함, 같은 황당한 요건들이 많았다. 주어진 데이터와 목표에 따라 써야하는 모델도 달라지고, 정확도 최대치도 달라질 수밖에 없고, 사회과학 데이터들 기반의 모델들은 설명력(R-squared)가 70%를 넘으면 기적같은 사건이라고 회자되는 경우가 많은데도 불구하고, “인공지능을 쓰면 99.9%로 올릴 수 있는 것 아닌가요?”와 같은 터무니 없는 답변을 듣고 혀를 차는 일이 빈번했다.

그렇게 오차가 하나도 없을 것이라는 확신을 가지는 황당한 사고방식이 몇 년간 전문가들에게 맹비난을 받으면서 지금은 대부분 정부 프로젝트 요건에서 사라지기는 했지만, 여전히 ‘AI예측’이라고 하면 일반인들은 엄청난 알고리즘을 통해 완벽한 해결책을 만들어 낼 수 있을 것이라고 착각들을 한다.

그러나 현실은 가장 오류가 적어야 할 ‘텍스트(Text)’기반 데이터로 만든 챗GPT류의 대형언어모델(LLM)들 조차도 ‘환각(Hallucination)’ 문제를 피하기 쉽지 않다. 제한된 데이터 그룹과 제한된 목적을 가정한다면 환각 사건이 생길 만한 모델 오차들을 강제 수정하는 방식으로 해결할 수 있을텐데, 단순히 데이터를 하나 지우고 고쳐쓰는 수준이 아니라 모델 구성 방식에 대한 체계적인 이해가 필수적이다.

위의 출구조사 기반 당선자 예측 모델도 상황은 크게 다르지 않다. 예전 IT업계 개발자들이 단순히 코딩을 할 줄 안다는 이유로 ‘인공지능 전문가’라고 포장하던 시절처럼 무작정 ‘딥러닝’을 쓰면 된다고 생각하는 분들은 이미 시장에서 퇴출됐겠지만, 출구조사 데이터를 바탕으로 유권자 지형에 대한 모델을 만들 때는 역시 모델 구성 방식에 대한 체계적인 이해가 뒤따라야 한다. 통계학 기반의 데이터 사이언스가 오차가 허락되는 학문이라고 해서 주어진 모델을 무지성으로 그대로 갖다 써서는 안 된다는 이야기다.

지역, 성별, 연령에만 의존한 모델의 한계

데이터 사이언스를 공부하는 학생들에게 ‘패널 데이터(Panel data, 수 많은 사람들의 행동을 10개 내외의 짧은 시간 구간 동안 살핀 데이터)’를 가르치며 선거를 예시로 들면, 지역구 여럿에 공통적으로 영향을 주는 요소와 개별 지역구에 영향을 주는 요소들을 구분한 모델을 만들어야 한다는 지적을 하게 된다. 패널 데이터 분석에서는 ‘고정 효과(Fixed effect)’와 ‘무작위 효과(Random effect)’라고 부른다. 선거 후 경제 정책 실패가 주 원인이라고 해석하는 분들의 주장은 고정 효과에 해당할 것이고, 지역구 별로 후보들의 전략이 달랐던 부분을 지적하는 분들의 주장은 무작위 효과에 해당한다.

그간 국내 주요 여론조사 기관들이 썼던 출구조사 기반 선거 예측 모델들은 지역, 성별, 연령에만 의존해왔다. 이번 선거도 출구조사 오차가 컸던 곳들을 보면 기존 3개 변수 만으로 설명되지 않는 후보별 특성들이 눈에 띄는 경우가 대부분이다.

어차피 선거 기간, 여론조사가 집중되는 기간은 길지 않다. 길어봐야 4개월, 짧으면 3-4주 남짓에 불과하다. 정부 심판, 막말 논란 등등, 항상 선거에 등장하는 공통 네거티브들이 전국 단위로 영향을 미치는 효과와 각 지역구 별로 후보들 개인의 매력으로 얻어내는 표심이 미치는 효과도 역시 최대 4개월의 여론조사만으로 충분히 추론이 가능하다.

당장 패널 데이터 형태로 데이터 모양을 수정하는 것으로 완벽한 모델을 만들어내기는 어렵겠지만, 이번 총선에서 실패를 거울 삼아 다음 선거에는 좀 더 정확한 모델을 제시할 수 있도록 고민의 시간을 가져야 하지 않을까?

예전에 한 직장인이 상담하고 싶다며 찾아와 “나이가 많이 차서 늦었다는 생각이 들지만, 데이터 과학 석사 학위를 따서 AI 전문가가 되면 고액 연봉을 받을 수 있냐? 아니면 박사과정까지 해야되냐?”고 질문한 적이 있다. 당시에도, 그리고 이번 선거의 출구조사 오차를 보면서도 내 대답은 같다. “주제가 AI건 아니건, 전문가란 배우고 연구한 전문성을 모두 담아낸 결과물로 평가받는 자리지, 고액 연봉을 자랑하는 자리가 아니다.”