[논문이야기] NGCF의 소개 ④

한성수 연구원 2023-06-08 09:002023-07-10 2023-07-10 18:17

그래프 반영을 통해 미처 발견하지 못했던 데이터 속 ‘관계’ 찾아내는 NGCF 다층의 레이어를 재귀적으로 구성한 아키텍쳐로 ‘High-order Connectivity’ 찾아내는게 NGCF의 핵심 이 때 message construction으로 그래프 데이터 표현된다

본 [논문이야기]는 NCF에 그래프 관계형 데이터를 반영한 계산법인 NGCF를 설명하기 위해 ‘Neural Graph Collaborative Filtering(Xiang Wang 등, 2020)‘을 참고했음을 밝힙니다.

NGCF는 어떻게 ‘관계형 데이터’를 표현하는가?

먼저 논문 초반 내용인 NCF와 NGCF의 차이점을 간단한 다이어그램으로 소개해보겠습니다.

위 그림처럼 NCF는 $l=1$, 즉 엣지(Edge)가 1개인 관계만 설명할 수 있는 반면, NGCF는 $l=1$ 이상의 고차원 데이터 관계까지 설명할 수 있습니다. 특히 위 다이어그램에서의 NGCF는 엣지의 갯수가 총 3개인 관계까지 설명합니다.

다시 말해 위 그림에서 NCF는 $u_1$(1번 유저)가 $i_1$(1번 아이템)을 선택하면 ‘단 1번’으로 유저-아이템간 관계 설정이 끝나게 됩니다. 그러나 NGCF는 유저와 아이템의 관계를 그래프적으로 풀어냄으로써, 3번 엣지까지 커버 가능한 재귀적(recursive)인 방식으로 표현할 수 있게 됩니다. 이를 논문에서는 ‘High-order Connectivity(고차 연결성)’라고 표현합니다.

위 NGCF의 다이어그램에 대해 더 구체적으로 설명해보겠습니다. $u_1$, $u_2$, $i_2$의 관계를 살펴봅시다. 여기서 $i_2$는 $u_1$ 및 $u_2$에 모두 연결 관계가 있습니다. 이를 통해 $u_1$과 $u_2$는 $i_2$ 관점에서 서로 유사성(similarity)이 있다고 볼 수 있습니다. 또한 위 다이어그램에서 $i_4$는 $u_2$와 연결돼있는데, 이때 앞서 확인한 바와 같이 $u_2$는 $u_1$과 유사성이 있으므로, $l=3$ 관점에서 결국 $i_4$는 $u_1$과 연결 관계가 있다고 볼 수 있는 것입니다.

이같은 방식을 통해 기존의 NCF에서는 아무 관계도 나타낼 수 없었던 $i_4$와 $u_1$의 관계를 NGCF에서는 정의할 수 있게 됩니다. 즉 이전 글에서 넌지시 언급한 ‘1차적인 관계밖에 설명하지 못한다’는 NCF의 한계는 NGCF에서 ‘그래프 구조’를 추가적으로 반영해 데이터의 새로운 ‘관계’를 발견함으로써 해결되는 것입니다. 이것이 앞에서 설명했던 High-order Connectivity의 개념이 되겠습니다.

NGCF의 구조

이제 구체적으로 NGCF가 어떻게 구성되는지 살펴보겠습니다. 전체적인 구조는 아래 다이어그램과 같습니다.

임베딩 레이어(Embedding Layer)는 전파 레이어(Propagation Layer)의 입력을 위한 유저 데이터와 아이템 데이터 각각의 임베딩을 담당합니다.

임베딩 전파 레이어(Embedding Propagation Layer)는 입력된 Embedding 정보를 그래프 형태가 반영된 연결 정보로 변환하기 위한 propagation 계산을 맡습니다. 이 때 message construction을 이용합니다(후술됩니다).

예측 레이어(Prediction Layer)는 message construction을 합치는(aggregation) 과정을 통해 해당 유저나 아이템 각각의 Embedding을 하나의 값으로 통합합니다.

연쇄 레이어(Concatenation Layer)는 앞에서 통합된 해당 유저와 아이템 행렬의 곱 연산을 통해 최종 유저와 아이템 간 연결 값(interaction value)를 산출합니다.

NGCF의 Embedding Layer 구성

앞에서 간단히 정리한 단계별 내용을 좀더 자세히 기술해 보겠습니다. 먼저 Embedding Layer부터 시작하겠습니다. 앞서 살펴본 NCF와 마찬가지로, NGCF는 유저와 아이템의 관계를 수치적으로 표현하기 위해 아래 형식으로 희소 행렬(Sparse Matrix)을 임베딩합니다.

이 때 데이터 입력은 유저에 대한 Embedding과 아이템에 대한 Embedding으로 구성돼 있습니다. 이를 통해 그래프 데이터를 수학적으로 표현 가능한 인접행렬(adjacency matrix)로 구성할 수 있습니다.

NGCF의 Embedding Propagation Layer 구성

앞 단계에서 만들어낸 유저와 아이템에 대한 embedding을 입력으로 이용해 embedding Propagation을 커버 가능한 엣지 수만큼의 레이어 수로 아래와 같이 만들게 됩니다. 이 때 다층의 레이어를 재귀적(Recursive)으로 구성함으로써 High-order Connectivity 구조를 만들고, 그래프 데이터가 신경망에 표현돼 계산할 수 있도록 설계합니다.

엣지의 갯수만큼 구성된 레이어들로 재귀적(Recursive)하게 구성하기 때문에 해당 특정 유저나 아이템에 연관된 모든 노드에 대한 계산이 진행됩니다. 재귀적인 부분을 펼쳐서 살펴보면 아래 그림과 같습니다.

NGCF의 Message Function

한편 이 논문에서는 그래프 데이터를 표현하기 위한 핵심 개념인 ‘Message’를 도입합니다. 즉 논문에서는 다층의 엣지를 거치는 Propagation에 대한 단계적 감가상각을 나타내는 변수인 $P_{ui}$라는 계수(coefficient)를 정의해 아래와 같이 ‘Message embedding(메세지 임베딩)’을 표현합니다.

$P_{ui}$에 대해 추가적으로 부연하면, 이는 매 Propagation마다 전파되는 메시지를 유저의 총 수와 아이템의 총 수의 절댓값으로 나눠줌으로써 단계적 감가상각을 반영해주는 계수라고 할 수 있습니다.

NGCF의 message function. $e_i$: 아이템의 embedding, $e_u$ : 유저의 embedding, $p_{ui}$ : decay factor

f 함수의 구체적인 수식은 아래와 같습니다.

$|N_u|$: 유저u의 이웃 수, $|N_i|$: 아이템i의 이웃 수, $W$: trainable matrix(전파 과정을 학습하기 위한 Matrix)

간단한 개론만 설명 드리면 $W_1$는 자기 자신과의 관계를 학습하기 위한 행렬이며 $W_2$는 관계를 구성하는 Message를 정의하는 유저와 아이템 간의 관계를 학습하는데 사용합니다.

NGCF의 Prediction Layer 구성

앞의 과정을 통해 Message Construction까지 진행이 완료되면 이를 통합하는 Aggregation 과정이 필요합니다. 유저에 대한 첫번째 Embedding Layer에서 이웃노드에서 전파된 Message embedding을 모아 정제하는 함수를 표현하면 아래와 같습니다.

아이템에도 동일한 계산이 적용이 되며 이 때 Leaky ReLU를 사용하는 이유는 ReLU 함수의 0인 부분을 음수로 처리하여 생략되는 Message가 없도록 하기 위함입니다.

Aggregation 과정이 완료되면 각 노드의 유저와 아이템의 Aggregation Value를 곱하여 유저-아이템 관계 행렬을 구성하게 되며 NGCF의 계산이 마무리가 됩니다.

글을 마치며

이번에 NGCF에 대한 소개글을 쓰면서, 이전에 학교에서 공부한 추천 알고리즘 내용과 논문만 공부해서 습득했던 파편적인 지식들이 정리되면서 하나의 선으로 이해됐습니다.

하지만 추천 알고리즘을 처음 접하는 독자분들은 CF의 기본 개념과 계층적으로 어떻게 구성되는지 이해하시기 쉽지 않을 것 같다는 생각이 들었습니다. 따라서 그래프 데이터가 어떤 이점이 있는지 설명을 먼저 드려야 NCF에 대해 이야기 할 수 있을 것 같았습니다. 또한 독자분들이 조금이라도 쉽게 이해하셨으면 하는 마음에서 NCF와 그래프 데이터에 대한 사전 지식을 충분히 설명 드리고, 이후 해당 지식과 NGCF를 하나로 엮어보고자 했습니다.

이에 따라 [논문이야기]의 구성은 이해에 필요한 기본 개념들을 (1,2)2개의 절로 나누어 설명 하고 마지막 3절에 본론인 NGCF의 논문 내용을 설명하면서, 좀 더 잘 정리된 하나의 이야기로 이해될 수 있도록 구성했습니다.

또한 쉽게 내용을 전달하기 위해 고민 하면서 필자인 저 자신도 알고 있는 지식들을 좀더 체계적으로 정리할 수 있는 기회가 된 것 같습니다.

마지막으로 이 글을 쓸 수 있게 기회를 준 학교인 SIAI와 교수님께 감사의 말씀을 드립니다. 다음에는 제 논문의 주제가 정해지면 진행된 내용에 관련해서 글 쓸 수 있도록 해보겠습니다.

감사합니다.

건축물 별 월간 전기/가스 사용량 예측: 결합확률분포 모델 기반 예측

하태성 연구원 2023-05-15 20:432024-02-16 AI/DS논문이야기

우리는 집에서 전기와 가스를 사용하고 매달 전기요금 고지서와 가스요금 고지서를 받는다. 여름에는 더위 때문에 에어컨을 많이 사용하고는 전기 요금이 많이 나올까 걱정하고, 겨울에는 추위 때문에 난방을 온종일 틀어놓고 비싼 가스 요금을 걱정하기도 한다. 송정훈 박사는 지난 5월 12일 개최된 ‘데이터사이언스경영학회 2023년 제1차 세미나’에서 한국에너지공단이 공개한 위의 통계자료를 지적하며, 이러한 전기와 가스 소비는 가정뿐만 아니라 비주거용…

ChatGPT 시리즈 – ②’인간 피드백형 강화학습(RLwHF)’의 장점

Keith Lee 2023-02-07 00:002023-04-12 AI/DS논문이야기

가치함수를 정의하고 벨만 방정식을 풀어내는데까지는 우리가 수식을 찾아낼 수 있다고 가정했다. 근데, 현실적으로 우리가 수식을 알고 있는 경우는 과연 얼마나 될까? 사실 수식을 알아낼 수 있는 학문의 영역은 일부에 지나지 않는다. 그리고, 계산법을 배우는 것이 힘들지는 몰라도 배우고 나면 문제를 풀어내는 것은 전혀 어려운 일이 아니다. 계산기가 풀어줄 수도 있는만큼, 문제를 풀어내느냐 여부는 문제를 수식으로…

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? – 초록

한성수 연구원 2023-09-13 09:002023-09-18 AI/DS논문이야기

이번 글은 아래의 내용과 같이 진행될 예정입니다. 어떻게 보면 여러 가지 이야기로 지루하고 복잡해 보일 수 있는 이번 글의 가독성을 위해 5개의 파트로 나눠 진행해 보려고 합니다. 논문이야기 방향 이야기의 시작인 Part1은 따릉이에 관심을 가지게 된 이유 및 ‘서울에서 따릉이를 가장 많이 타는 곳은 어디일까?’에 대한 이야기를 해보고자 합니다. 두 번째 이야기인 Part2는 서울시 환경적인…

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ③

한성수 연구원 2023-09-18 09:002023-09-18 AI/DS논문이야기

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ②에서 이어집니다 주요 업무지구의 출퇴근 시간 따릉이 이동 패턴 분석(Part 4) 앞선 논문이야기에선 자전거길 조성이 잘 돼 있으며 한강 자전거길 접근이 쉬운 서울시 내 신규 개발 업무지구로 따릉이 사용량이 집중된다는 사실을 살펴봤습니다. 따라서 따릉이 사용의 집중이 되는 초거대 업무지구 5곳을 중심으로 분석을 시작하고자 합니다. 한 가지 가설을 세웠습니다. 그것은…

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ②

송정훈 연구원 2022-09-02 09:002023-07-10 AI/DS논문이야기

[논문이야기] 건축물 별 월간 전기/가스 사용량 예측:결합확률분포 모델 기반 예측 ①에서 이어집니다. 이전 글에서 언급했듯 에너지원 수급,생산,수송,설비 투자 등에 관한 효율적 의사결정을 위해서는 무엇보다도 에너지 사용량 추정이 정확하게 이뤄져야만 한다. 이번 글에서는 기존 연구들이 어떻게 ‘통계적으로’ 에너지 사용량을 추정했는지 개략적으로 살펴보고, 나아가 ‘계절적 추이’를 반영해야하는 이유를 짚어본다. 에너지 사용량을 현실적으로 추정하기 위한 방법, ‘회귀분석’ 이상적으로는,…

[논문이야기] 부동산 경매시장의 버블 ②

박혜영 연구원 2022-11-25 09:002023-07-10 AI/DS논문이야기

[논문이야기] 부동산 경매시장의 버블 ①에서 이어집니다. 지난 글에 이어 이번 글에서는 버블의 의미와 역사, 그리고 버블이 반복되는 이유에 대해 살펴본다. 버블이란 버블(bubble)이란 이는 시장에 전반적으로 특정 자산이 과도하게 공급되면서, 해당 자산의 가격이 내재한 가치 또는 일반적인 수준보다 크게 형성되는 현상을 의미한다. 이는 과열된 경제 상황을 설명할 때 주로 사용되는 표현이기도 하다. 버블의 문제는, 거품이 꺼지면서…