[논문이야기] Interpretable Topic Analysis ⑤

‘경량화’에 초점 둔 GNTM 모델, 업계 다양한 필드에 적용될 수 있어 그래프 구조에 기반한 덕분에 토픽 계산의 ‘해석 가능성’ 높일 수 있었다 텍스트 특성상 ‘노이즈’ 포함 가능성 크므로 이를 고려하면서도 계산 효율 높이는 것이 추후 연구의 관건이 될 것

Policy Korea

[논문이야기] Interpretable Topic Analysis ④에서 이어집니다

GNTM을 통한 토픽 모델링 시각화

요약

본 논문을 한 문장으로 요약하자면, NLP(Natural Language Process, 자연어처리)분야에서 토픽의 비율을 뜻하는 $\theta$를 찾아내기 위해 비선형 요인분석(Non-linear Factor Analysis)를 수행한 것으로 볼 수 있습니다(실제로도 토픽들간의 공분산은 존재합니다).

위를 바꿔 말하면, 보통 요인 분석(Factor Analysis, FA)은 수치형 데이터에서 사용되는데, 이를 NLP 분야에 활용(비선형 요인분석)하기 위해 단어와 각 토픽의 구조, 토픽들의 비율, 토픽의 비율이 따르는 사전 분포(prior distribution)의 정보를 뽑아내고, 이를 바탕으로 각 집단의 정보를 수치화했다는 것입니다.

주성분 분석(Principal Component Analysis, PCA) 및 FA 관련 연구에서 가장 큰 난관은 해당 방법론을 통해 뽑아낸 요인(Factor)들을 제대로 해석・정의하기 힘들다는 것입니다. 하지만 본 논문의 모델인 ‘GNTM’은 관련 데이터의 각 요인에 해당하는 ‘토픽’에 워드 네트워크(word-network)가 제시되기에 기존 PCA・FA의 ‘요인을 정의할 수 없다는’ 한계를 극복할 수 있습니다. 이제는 각 토픽(factor) 당 토픽에서 차지하는 중요한 단어들을 볼 수 있고 그 토픽이 무엇인지 해석할 수 있게 된 것이죠. 가령 해당 계산을 통해 토픽 1에서 가장 높은 비중을 차지하는 단어가 워드 네트워크 상에서 ‘bank’, ‘financial’, ‘business’, ‘market’, ‘economic’로 도출됐다면, 이를 통해 토픽 1을 비로소 ‘투자(Investment)’로 볼 수 있게 되는 것입니다.

또한 본 논문은 계산 효율을 최대화하기 위해 TC, TD 관점에서 토픽의 갯수를 조절하면서, 이를 기반으로 클러스터링(clustering)의 관점에서 ‘바이어-셀러’ 매칭의 목적에 제대로 부합할 수 있도록 토픽의 수를 최적화했습니다. 또한 최적화된 토픽 수에 따른 결과를 UMAP, 워드 네트워크로 시각화해 재확인했습니다.

마지막으로 차원의 저주(high dimension curse) 문제를 최대한 해결하기 위해, 코사인 유사도(cosine similarity), 상관관계(correlation) 기반의 지표들을 활용해 토픽들을 군집화(clustering)했습니다.

데이터의 노이즈 이슈는 어떻게?

한편 텍스트 데이터는 특수 문자, 구두점, 공백, 불필요한 태그 등 실질 데이터와 무관한 ‘노이즈’가 포함될 가능성이 매우 큽니다. 본 모델은 중요한 토큰(token)만을 뽑아내는 NVI를 사용하고, 나아가 에포치(epoch) 수를 크게 늘려 이같은 이슈를 최소화할 수 있습니다.

물론 에포치 수를 늘릴 수록 계산 비용(Computational Cost)는 기하급수적으로 증가하게 되므로, 한정된 시간 속에서 분석을 진행해야 하는 실제 현장에서는 노이즈를 빠르고 효율적으로 줄일 수 있는 추가적인 방법을 고민해야 할 필요가 있을 것으로 사료됩니다.

적용 가능성

GNTM이 여타 NLP 방법론과 구별되는 가장 큰 매력은 ‘해석 가능성(Interpretability)’입니다. 그간 딥러닝은 통칭 ‘블랙박스’로 불리며 계산과정을 인간이 이해할 수 없다는 단점이 있었는데, 본 모델은 그래프 기반 계산을 통해 토픽을 결정짓는 요인이 무엇인지 직관적으로 이해할 수 있게 된 것입니다.

본 모델은 적용하기 쉽다는 장점도 있습니다. GNTM의 근간이 되는 그래프 신경망 모델(Graph Neural Network Model)은 패키지 형식으로 일반에 공개됐으므로, 이를 서비스 형식으로 정리해 잠재 수요자들이 이용하기 쉽게끔 서비스를 제공할 수 있습니다.

또한 본 연구는 영어 텍스트 데이터를 보유하고 있는 회사에서 이를 수치화・응용하고 싶을 때 적용할 수 있게 ‘경량화’된 모델로 구성됐기 때문에, 회사의 목적과 상황에 따른 유연한 활용이 가능할 것으로 기대됩니다.

한편 UMAP(Uniform Manifold Appoximation and Projection)을 통해 데이터에 비선형 관계가 숨어있다는 것을 시각적으로 확인했고, 이에 따라 LightGCN 등의 추가적인 비선형적 계산을 적용할 여지가 존재합니다.

아울러 본 논문은 각 문서에 토픽들의 세부적인 비율을 배정한 만큼, 각 문서의 토픽 비율을 어떻게 활용할지에 대한 추가적인 연구 가치가 있습니다.

추후 리서치 방향

적은 비용으로 AI로부터 높은 수준의 결과물을 얻어내는 프롬프트 엔지니어링처럼, 본 논문의 추후 리서치 방향은 ‘최대한 노이즈를 배제하며 정확하고 빠르게 모델을 학습할 수 있을지’가 되겠습니다. 다시 말해 노이즈로 인해 모델이 과적합(over-fitting)되지 않도록 정규화(regularization)을 적절한 방식으로 적용함과 동시에, 계산 효율을 지금보다 더 끌어올리는 것이 본 논문이 나아가야할 방향이 될 것입니다.

Similar Posts