[논문이야기] Interpretable Topic Analysis ③

김민철 연구원 2023-01-18 09:002023-07-12 2023-07-12 15:23

GNTM, 그래프 구조 반영 통해 LDA 보완 나아가 NVI의 ‘로지스틱 정규분포’ reparameterization으로 VI보다 계산 효율 꾀할 수 있어 GTRF, NVI, GloVe 융합으로 셀러-바이어 매칭 서비스 혁신 기대돼

[논문이야기] Interpretable Topic Analysis ②에서 이어집니다

이전 글에서는 GloVe를 본 연구의 핵심 워드 임베딩 기술로 사용하게 된 배경을 살펴보고, 나아가 그래프 표현을 통해 ‘토픽 내 단어간 관계’를 심도 깊게 반영하는 GTRF를 소개했습니다.

higher order GNN의 예시. 차수가 높아짐에 따라 데이터간 관계를 더 깊게 표현하게 된다.

위 논의를 기반으로, 이번 글에서는 본 [논문이야기]의 핵심인 ‘GNTM(Graph Neural Topic Model)’를 살펴봅니다. GNTM은 higher order GNN(Graph Neural Network, 그래프 신경망)을 활용합니다. 즉, 위 그림처럼 GNTM은 order를 확장하면서 다양한 단어들의 연결 관계를 심층적으로 이해하고 임베딩할 수 있게 됩니다.

한편 GNTM은 NVI 계산을 통해 신경망 계산 비용을 상당히 개선할 수 있습니다.

Graph Neural Topic Model은 뭐가 다른 건데?

GNTM은 LDA에서 ‘그래프 구조’를 계산에 반영하는 과정을 하나 더 추가하는 한편, 학습을 효율적으로 하기 위해 변분 추론(Variational Inference, VI) 대신 신경망(Neural Network)을 이용한 신경망 변분 추론(Neural Variational Inference)를 활용합니다.

GNTM 계산. LDA 계산에 $\alpha$ 파라미터와 토픽 및 단어의 구조(G), 단어셋(V)가 추가됐다.

GNTM(GTRF)의 메커니즘을 살펴봅시다. 위 그림은 GTRF 계산을 LDA 계산과 함께 펼쳐놓은 것입니다. 이전 글에서 살펴봤듯, GTRF는 $\theta$가 정해졌을 때의 조건부 분포(conditional distribution)에 따라서 z의 구조가 달라지는 것을 학습하는 계산입니다.

어려울 수 있으니, 큰 틀에서 파악해봅시다. 먼저 문서 전체에 걸쳐 토픽들이 고루 퍼져 있다고 해봅시다. 이 때 토픽들이 차지하고 있는 비율은 각기 다를 것입니다. 이 비율을 나타내는 파라미터를 $\alpha$라고 해봅시다.

이 때 $\alpha$는 (LDA 접근 방법과 동일하게) 베타 분포(Beta distribution)의 확장 버전인 디리클레 분포(Dirichlet Distribution)의 형태를 결정하는 파라미터입니다. $\alpha$에 따라 분포의 모양은 아래와 같이 변하게 됩니다.

$\alpha$의 갯수가 3개일 때(토픽의 갯수가 3개일때)의 베타 분포 변화

이렇게 해서 $\alpha$라는 파라미터로 토픽들의 비율이 정해지면 그 토픽들의 비율을 가지고 있는 파라미터 $\theta_d$라는 변수가 나오게 됩니다. 분포의 비율을 결정하는 것이지 경우의 수가 고정된 것이 아니기 때문입니다. 나아가 토픽 z가 결정이 되면 토픽에 따른 구조 $G$와 단어 셋 $V$가 결정이 됩니다.

GNTM의 차별점(1) : LDA에 그래프 구조 반영

지금까지의 논의를 통해, 우리가 가지고 있는 뉴스 정보들을 수치화하는 과정을 거쳤습니다. 이제부터는 어떻게 정확하고 빠르게 계산할 수 있을까?를 고민할 시간입니다.

처음은 매우 간단합니다. 디리클레 분포의 모든 파라미터($\alpha$)를 1로 설정해서 n차원에서 균등분포로 만듭니다. 현재 내가 기존에 가지고 있는 정보가 없으니 순수하게 토픽의 비율이 모두 동등하다고 가정하는 것입니다.

그 다음으로 토픽의 비율이 균등분포라는 가정 하에 랜덤하게 추출됩니다. 추출된 토픽의 비율에서 이제 토픽 z에 따라 또 랜덤으로 기사 문서 속에 있는 단어들의 토픽 배분이 결정 될 것입니다. 한편 중간 그래프 구조(graph structure)인 $G$는 어떤 구조가 숨어있는지 ‘학습’할 영역이기 때문에 모델링 처음부터 정의를 해줄 필요가 없습니다. 따라서 처음의 식은 아래와 같이 정리되겠습니다.

GTRF에서도 이미 확인했듯, 주어진 조건(여기서는 topic)에 따라 그래프 구조가 나올 확률이 다르며, 이를 나타내는 방법은 이항 분포의 분산 모양에서 확인할 수 있는 p(1-p)를 모두 곱하는 것입니다. 다시 말해 단어들한테 임의로 토픽을 할당하고, 그 할당 비율을 통해 m를 구할 수 있으며, 그 값을 통해 토픽들 간에 구조가 나올 확률을 이항 분포의 분산으로 수치화한다는 것이죠.

GNTM의 차별점(2) : NVI

마지막으로 살펴볼 부분은 NVI입니다. NVI는 텍스트 데이터 안에 있는 잠재 토픽의 사후 분포를 추정하는 방법입니다. NVI 알고리즘은 다양한 분포에 실제 사후 분포를 정확하게 추정하기 위해서 Neural Network 구조를 이용해 파라미터화합니다. 물론 그 과정에서 변분 추론(VI)에서 자주 사용하는 방법인 reparameterization (재파라미터화) 트릭으로 더 간단한 구조의 분포를 사용해 추정하기도 합니다. 신경망을 활용한다는 것은 적은 차원으로 축소해 데이터를 학습하는 VAE(Variational AutoEncoder)보다 다양한 분포에서 활용이 가능하다는 것을 의미하죠. 이는 보편적 근사 정리(Universal Approximation Theorem)을 바탕으로 모든 함수를 신경망으로 추정하는 것이 이론적으로 뒷받침 되기 때문입니다.

Reparameterization에 대해 부연하자면, 이는 기존의 확률 분포를 추론하는 과정에서 다른 분포로 대체해 학습 가능한 파라미터로 표현하는 것입니다. 이를 통해 역전파 계산이 가능해지고, 기울기를 효과적으로 계산할 수 있게 됩니다. 이 기법은 VAE에서 잠재 변수의 샘플링 과정에서 주료 사용됩니다.

앞서 언급했듯, NVI 뿐만 아니라 VI에서도 reparameterization trick을 사용합니다. 그러나 NVI만의 장점은 신경망을 통한 다양한 분포의 추정이 가능하면서도, 기존 디리클레 분포(Dirichlet Distribution) 기반의 하나의 정보만 활용 가능하던 VI와는 달리 로지스틱 정규 분포(Logistic Normal Distribution)를 활용해 평균과 공분산이라는 두 개의 정보를 활용할 수 있다는 것입니다. 나아가 NVI는 토픽 간의 구조를 추정하던 GTRF처럼 토픽 간의 관계에 대한 정보를 추론 하는 과정을 모델에 반영합니다.

[논문이야기] Interpretable Topic Analysis ④로 이어집니다

ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

Keith Lee 2023-02-10 00:002023-04-12 AI/DS논문이야기

ChatGPT에 맞서 구글에서 Bard라는 LaMDA 기반의 대형언어모델(LLM) 모델을 내놨다. 이미 오래전부터 나왔던 이야기고, 모델 자체가 데이터 물량에 크게 의존하는만큼, 세계 최대 검색엔진을 갖고 있는 구글이 유사한 서비스를 못 내놓을 것이라는 생각은 하지 않았었다. 아직 준비 중이었을텐데, 워낙 ChatGPT가 여론의 관심을 받으니 출시일을 좀 앞당긴 것 같은데, 제임스 우주 웹 망원경(JWST)에 대한 설명 중에, 태양계 밖에서 우리 지구의…

[논문이야기] 부동산 경매시장의 버블 ④

박혜영 연구원 2022-11-28 09:002023-07-10 AI/DS논문이야기

[논문이야기] 부동산 경매시장의 버블 ③에서 이어집니다. 이전 글을 통해 필자는 최근 부동산 시장이 침체 국면에 들어서고 있으며, 집값 급락으로 인한 버블 붕괴에 대비할 수 있는 지표의 필요성에 대해 밝힌 바 있다. 또한 이전 글을 통해 버블이 인간의 ‘군중 심리’ 본능에 의해 발생한다고도 설명했다. 이번 글에서는 부동산 매매 시장의 버블을 예측하기 위한 수단으로써 ‘경매’ 시장을 들여다봐야…

측정오차 하 광고 시계열 모델링 연구: Poisson Time Series 및 Poisson Kalman Filter를 중심으로

하태성 연구원 2023-05-19 09:002024-02-16 AI/DS논문이야기

코로나19 팬데믹은 우리의 일상 전반의 변화와 함께 디지털 전환을 가속했다. 집에서 보내는 시간이 길어지면서 유튜브, 모바일 콘텐츠, 온라인동영상서비스(OTT) 등 미디어 시청 패러다임의 변화는 물론, 소비의 중심축이 오프라인에서 온라인으로 움직이면서 디지털 광고 시장 또한 급격하게 성장했다. 실제로 최근 한국방송광고진흥공사가 발표한 ‘2022년 방송통신광고비 조사’에 따르면 대부분 매체의 방송광고비는 감소했지만 2023년 추정 온라인광고비는 8조8400억원으로 전년 대비 10% 증가하는…

[논문이야기] 부동산 경매 시장의 할인/할증 요인 – 번외

유보현 연구원 2022-10-24 09:002023-06-21 AI/DS논문이야기

이전 글(1,2,3,4)까지를 통해 부동산 경매 시장의 할인/할증 요인을 수학・통계학적으로 발견하고, 나아가 해당 요인에 대한 특성을 분석해 부동산 시장의 성격을 거시적으로 살펴봤다. 마무리 차원에서 이번 글에서는 필자가 본 연구를 하게 된 개인적인 배경과 소회를 밝힌다. 기술보다는 논리에 초점 위 주제로 논문을 쓰게 된 이유는 실제로 전공이 부동산이거나 전문 분야라서는 아니다. 최근 몇 년간의 업무 대부분은 데이터…

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ⑤

송정훈 연구원 2022-09-07 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ④에서 이어집니다. 이전 글(1,2,3,4)까지의 기나긴 대장정을 통해, 우리는 에너지 사용량에 대한 기존 연구의 1차 모멘트 벡터(1st moment vector) 계산과 함께 회귀 모델의 ‘공분산’을 포함한 2차 모멘트 행렬(2nd moment matrix)까지 완전히 추정할 수 있게 됐다. 아울러 이렇게 계산된 1차 모멘트 벡터 및 2차 모멘트 행렬을 통해…

[논문이야기] Interpretable Topic Analysis ②

김민철 연구원 2023-01-17 09:002023-07-12 AI/DS논문이야기

[논문이야기] Interpretable Topic Analysis ①에서 이어집니다 AI(Artificial Intelligence)분야에서 가장 먼저 떠오르는 교수님은 누가 있을까요? 저는 앤드류 응(Andrew Ng) 교수님이 떠오릅니다. 왜 그런진 모르겠지만 언젠가부터 주변에서 앤드류 응 교수의 강의, 인터뷰, 논문을 봤다고 얘기하는 사람들이 늘어나기 시작했습니다. 지금 생각해보면 앤드류 응 교수의 논문이 2000년 대 초반에 나왔다는 것을 생각하면, 최근 들어 이 교수의 명성을 접하게 돼…