Interpretable Topic Analysis

20
pabii research
지난 12일 ‘데이터사이언스경영학회 제1차 세미나’에서 김민철 학회원이 ’Interpretable Topic Analysis’ 논문에 대해 설명하고 있다/사진=데이터사이언스 경영 연구소

산업통상자원부가 올해 초에 발표한 ‘연간 수출입동향’에 따르면, 지난해 우리나라 세계 수출 순위는 6위를 기록했다. 또한 지난해 수출액은 6,839억 달러로 2년 연속으로 사상 최대 수출 실적을 경신했다. 반면 우리나라 무역수지 적자는 나날이 심해지고 있다. 산업부에 따르면 지난해 무역수지는 역대 최악인 472억3,000만 달러(약 61조 8,713억원)을 기록했다. 이는 2008년 글로벌 금융위기(132억6,749만 달러 적자)를 뛰어넘는 수치다. 전문가들은 이를 글로벌 경제 침체 및 한국의 높은 반도체 의존도가 맞물린 결과로 분석한다. 즉 세계적인 경기 하방 압력에 선진국들의 반도체 수요가 줄면서 한국 무역 시장 전반이 연쇄적으로 타격을 입었다는 것이다.

지난 5월 12일 개최된  ‘데이터사이언스 경영학회(Managerial Data Science Association, 이하 MDSA) 2023년 제1차 세미나’에서 김민철 MDSA학회원은 위와 같은 한국 무역 시장의 높은 반도체 의존도를 지적하며, ‘수출 다원화’를 위한 적절한 대응책을 마련해야 한다고 전했다. 이어 김 회원은 “수출 다원화를 위해서 해외 바이어들과 국내 다양한 기업들을 연계해 주는 과정이 필수적”이라면서도 “현재 공공기업이 제공하는 국내기업-해외 바이어 매칭 서비스는 단순 기술 통계량에 기반한 저차원의 분석에 머물러있다”며 “이는 수출 다원화에 큰 도움이 되지 않는 실정”이라고 했다. 이런 상황에 해결책을 제시하고자 김 회원은 본인의 논문인 ‘Interpretable Topic Analysis’를 통해 해외 바이어와 국내 기업 간 매칭에 실질적인 도움이 될 수 있는 진정한 ‘빅데이터’ 서비스에 대해 논의했다.

본격적인 논문 설명에 앞서, 김 회원은 먼저 토픽 모델링(Topic Modeling) 의 가장 대표적인 방법론인 잠재 디리클레 할당(Latent Dirichlet Distribution, LDA)의 한계점을 지적했다. LDA는 말뭉치(corpus)에 숨겨져 있는 토픽(topic)의 구조를 찾는 과정에서 단어의 순서와 앞 뒤에 따른 관계를 독립으로 가정한다. 김 회원은 이와 같은 가정을 “앞의 대화 맥락을 고려하지 않고 쌩뚱맞게 다른 말을 하는 셈”이라고 지적했다. 그렇다면, ‘어휘 맥락’을 어떻게 자연어 처리 모델링에 반영할 수 있을까.

김 회원의 연구 핵심인 ‘그래프 기반 신경망 모델(Graph Neural Topic Model, GNTM)’ 은 위의 기존 LDA가 가지는 한계, 즉 ‘어휘 맥락’을 보완하는 토픽 모델링 방법론이다. 김 회원에 따르면, GNTM은 LDA 계산에 ‘그래프 구조’를 추가적으로 반영한다. 아울러, 계산 효율(Computational Efficiency)을 제고하기 위해 신경망 변이 추론(Neural Variational Inference, NVI)을 활용한다.

김 회원은 GNTM의 알고리즘에 대해서 더 세부적으로 설명했다. 먼저 디리클레 분포(Dirichlet Distribution)의 모든 파라미터를 1로 설정해 n 차원의 균등 분포(Uniform Distribution)로 사전분포를 설정한다. 즉 문서의 각 토픽 비율이 동등하다고 가정하는 것이다. 다음으로, 토픽에서 차지하는 각 단어를 바탕으로 사전 분포 파라미터를 베이지안 업데이트(Bayesian Update)하면서 토픽의 배치를 바꿔나간다. 이 때 김 회원은 토픽에 따라 나오는 ‘그래프’의 확률을 이항분포의 분산으로 추상화하여 모델에 반영했다.

또한 김 회원은 실제 사후 분포를 정확하기 위해 신경망 구조(Neural Network, NN)를 이용해 분포를 파라미터 화하는 방법론인 ‘NVI’에 대해 설명했다. NVI는 신경망을 활용해 다양한 분포를 추정할 수 있어 VI(Variational Inference)와는 차별되는 장점이 있다. 아울러 김 회원은 ‘라플라스 근사(Laplace approximation)’를 소개했다. 그에 따르면, 하나의 정보만 포함하는 디리클레 분포를 활용하는 기존 LDA와는 달리, 라플라스 근사는 로지스틱 정규 분포(Logistic normal distribution)를 활용해 ‘평균’과 ‘공분산’이라는 두 개의 정보를 활용할 수 있어 더욱 정확한 파라미터 추정이 가능하다. 또한 로지스틱 정규 분포를 활용하기 때문에 비용 함수가 미분하기 쉬운 ‘닫힌 형태(closed form)’가 되어 계산 효율을 크게 향상할 수 있다.

그렇다면 모델 학습을 위한 토픽의 개수는 어떻게 정해야 할까. 김 회원은 이를 결정하기 위한 두 가지 기준인 ‘계산 효율성(Computational Efficiency)’과 ‘해외 바이어-국내 기업 간 매칭 정확도’을 제시했다. 김 회원은 먼저 ‘계산 효율성’ 측면에서 토픽의 개수에 따른 Topic Coherence(TC)와 Topic Diversity(TD)의 변화 추이를 확인했다. 그 결과, 토픽이 10개일 때 계산 효율이 극대화됨을 확인했다. 한편 김 회원은 토픽 개수에 따른 ‘해외 바이어-국내 기업 간 매칭 정확도’를 군집화(Clustering)를 통해 측정한 결과, 토픽의 개수가 9개일 때 최적의 군집을 이루는 것을 확인했다.

이어 김 회원은 앞서 도출한 최적 토픽 개수를 기반으로 계층 군집화(Hierarchical Clustering)를 통해 데이터를 분류하는 한편, 해당 결과를 덴드로그램(Dendrogram)과 UMAP(Uniform Manifold Approximation and Projection)로 시각화했다. UMAP 알고리즘은 고차원 데이터의 구조와 패턴을 보존하면서 저차원으로 투영하는 기술로 주로 비선형 관계같은 대규모 데이터의 복잡한 패턴을 시각화할 때 유용하게 활용되는 방법이다. 

또한 김 회원은 본 연구의 ‘해석가능성(Interpretability)’을 강조했다. 그는 “본 연구는 통칭 블랙박스라고 불리는 딥러닝의 계산과정을 GNTM을 통해 ‘확인 가능’한 구조로 재구성했다는 점에서 의의가 있다”며 “계산 결과 또한 각 토픽을 워드 네트워크(work network)를 통해 제시함으로써 토픽 내용에 대한 해석이 용이하다”고 했다. 아울러 김 회원은 “계층 군집화와 덴드로그램을 통해 문서별 토픽의 유사도를 시각화해 셀러, 바이어 간 직관적 매칭을 가능케 한다”고 밝혔다. 

마지막으로 김 회원은 “추후 매칭(추천) 알고리즘은 LightGCN 등의 모델로 대체 될 수 있으나, 본 논문의 의의는 해석 가능한 결과와 추적이 가능한 계산 과정을 제시함으로써 의사 결정에 도움이 되는 프로세스를 제시한 것에 있다”고 밝혔다. 

아래는 논문 발표 이후 김 회원이 받은 질문과 답변을 요약한 것이다.

(1) 현실적으로 비영어권 국가에서 필요한 정보는 영어가 아닌, 자국어로 표기된 경우가 대부분인 것으로 생각된다. 논문이 영어뿐만 아니라 다른 언어, 특히 한국어에도 적용될 있는가.

답변) 본 논문은 광범위한 문서에 대한 어휘를 벡터로 표현하는 기술(GloVe)를 적용하고 있다. 그러나 해당 기술은 현재 영어만 지원하고 있어 다른 언어의 적용이 어려울 것으로 생각된다. 또는 앞서 언급한 벡터 표현, 즉  ‘그래프’ 정보를 실수 체계에 일대일 매핑하는 작업을 포기하고 Graph Neural Toipic Modeling을 다소 다른 관점으로 접근하면 가능할 수 있을 것으로 생각된다. 다만 KOTRA, 한국 수출 기업들 대부분의 데이터가 영어로 이루어져 있는 만큼, 활용 영역을 국내로 한정했을 때 말씀하신 부분에 대한 우려는 줄어들 것으로 판단된다. 덧붙이자면, 사실 무엇보다 가장 큰 문제는 한국의 인프라다. 아직까지는 본 연구에 적용될 수 있는 한국어 사전이 없다.

(2) 논문은 토픽 개수 결정을 10개와 20개만 놓고 비교했다. 그러나 이는 토픽 개수로 가능한 전체의 경우의 수를 고려하지 않은 것으로 생각된다. 토픽 개수 결정과 관련하여 합리적인 방법은 없었는가.

답변) 본 연구는 토픽 간의 그래프 구조를 반영해 토픽 개수를 추출했다. 이와 같은 이유로 토픽 개수를 특정 숫자 이상으로 올리게 되면, 앞서 언급 드린 계산 효율성 지표인 TC, TD가 급격하게 떨어지게 된다. 물론 질문 주신 것처럼 토픽 0개부터 한 개씩 올리며 계산 효율성을 확인하는 방법도 있겠으나, 이는 계산과학적 이론이 뒷받침되지 않은 작업의 반복에 해당할 것으로 본다. 또한 본 연구가 인더스트리에 활용된다면, 전문가들의 도메인 지식에 따라 토픽 개수를 경험적으로 결정하는 것도 하나의 방법이 될 수 있을 것으로 본다.

(3) 앞선 질문의 연장으로, 토픽의 개수를 결정할 AIC(Akaike Information Criteria), BIC(Bayesian Information Criteria) 관점을 활용할 수는 없는가. 토픽 개수가 증가하는 부분에 패널티를 부과하고, 가능도 함수(Likelihood function) 증가하는 부분에 초점을 맞춰볼 있을 것으로 생각된다.

답변) 충분히 가능할 것으로 생각된다. 말씀하신 부분을 반영해 논문을 보완할 수 있을 것으로 보인다.

Similar Posts