ChatGPT 시리즈 - ④'인간 피드백형 강화학습(RLwHF)'과 GPT-3.5

ChatGPT의 모델 자체는 기존의 강화학습 모델들과 큰 차이가 없다. ChatGPT 측에서 직접 공개한 홈페이지 상의 설명이나, 공개된 논문에서도 기존의 강화학습을 일부 변형해 보상(Reward)를 주는 방식을 인간의 피드백으로 대체했다는 점을 지적하고, 해당 부분의 효과를 설명하는 실험으로 가득찬 전형적인 공학 논문이다.

위의 2번 식에서 볼 수 있듯, 기존의 강화학습(Reinforcement Learning, RL)을 놓고, Supervised Fine-Tuning(SFT)라는 작은 모델로 보정하는 작업을 거친다. SFT는 모델 제작자가 뽑은 일부 데이터만을 활용한 Policy로, RL과 일치한다면 log로 처리된 두 값의 비율은 log1, 즉 0이 된다. 두 값이 차이가 있을 때만 첫번째 Expectation 값이 r(x,y)가 아닌 다른 값이 되는 것이다.

말을 바꾸면, 보정해야할 필요가 있으면 보정하고, 그 외에는 기존 모델을 그대로 따르겠다는 것이 된다. 뒷쪽의 (화면 상에서 2번째 줄의) Expectation은 ‘Pre-train’ 값, 즉 기존 모델로 만들었던 값이고 Gamma 값이 곱해진 이유는 어느 정도의 비율로 기존 모델을 쓸지 결정하겠다는 것을 의미한다.

정리하면, 위의 2번 식은 과거 모델을 Gamma만큼 활용하고, 이번에 새롭게 들어온 정보를 바탕으로 보정한 값에 더해줘서 최적화 계산을 진행하겠다는 뜻인데, 좀 더 쉬운 말로 표현하면, 새 정보가 의미가 있으면 쓰고, 아니면 말겠다는 뜻이라고 보면 된다.

자, 그럼 새 정보를 처리하는 SFT라는 계산이 어떤 계산인지 궁금해지는데,

위의 Step 1에서 ‘Sample’ 데이터로 얻은 결과물을 ‘Fine-tune’한다는 설명이 담겨 있다. 역시 좀 더 쉬운 말로 바꾸면, 모든 데이터를 다 쓰면 계산 비용이 너무 커서 시간이 많이 걸리니, 일단 간단한 샘플 데이터를 뽑은 다음, 그 데이터를 이용해 추정해야 하는 ‘숨겨진 논리’를 예측하는 작업을 했다는 것이다. 여기서 Supervised Fine-Tuning (SFT)은 이 모델이 ‘지도학습(Supervised)’이고, 미세하게 조금씩 결과값을 보정하는(Fine-Tuning) 과정을 진행한다는 뜻이 담겨 있다.

머신러닝 수업 초반부에 ‘Stochastic Gradient Descent (SGD)’라고 불리는 계산법을 배울텐데, 여기서 ‘Stochastic’이 들어간 이유가 모든 데이터를 쓰지 않고 일부의 데이터만 활용하기 때문에 붙은 설명이다. 위의 Step 1에서 설명하는 SFT도 같은 맥락에서 작은 샘플을 뽑아 근사치를 빠르게 찾아 다음 모델에 던져주는, 일종의 중간 단계 모델을 말한다.

이어 Step 2에서는 일반적인 강화학습 모델에서 말하는 보상(Reward)이 RLHF에서는 인간의 선호 값으로 대체된다는 점을 설명하고 있다. 이전에 설명한 현시선호(Revealed preference)를 따르겠다는 것이다. 위의 그림에서 RM은 Reward Model의 약자다.

마지막 Step 3에서는 그렇게 만든 Supervised learning 모델을 결합하는 방식을 설명하고 있다. 여러 옵션 중에 최적 선택을 반복적인 데이터 입력으로 찾아가는 계산을 RL 수업을 듣다보면 아마 (Multi-Armed) Bandit이라는 이름으로 배울 것이다. 위의 PPO (Proximal Policy Optimization)이 바로 그렇게 Bandit 형태로 반복작업을 거쳐 조금씩 최적 결과값에 가까운 정보를 찾아가는 작업을 의미한다.

쉽게 3개의 도박 기계가 있을 때, 가장 돈을 많이 벌 수 있도록 해 주는 모델을 알 수가 없으니, 번갈아가면서 동전을 넣어보다가 효과가 가장 좋아보이는 기계에 점점 더 많은 돈을 넣는 방식의 추론을 Bandit이라고 부르고, PPO도 보상, 혹은 인간의 긍정적인 반응이 더 많은 답안을 내도록 모델이 변형된다는 모델이다.

이런 Bandit 형태의 추론 계산법이 일반적으로는 ε-greedy algorithm를 가장 기본형으로 쓰고, 그 외에 데이터 구조에 따라 Upper Confidence Bound(UCB), Thomson sampling 등을 쓰는 경우를 자주 보는데, ChatGPT의 RLHF는 Kullback-Leibler(KL) Divergence를 쓰는 점이 특이한 부분 중 하나다. 문자열 기반, 특히 채팅 기반의 데이터를 다루고 있는 만큼, 특정 단어로 바꿔 끼웠을 때 이상적인 답변에 더 가까워지는지를 판단하기에 적절하기 때문에 골랐을 것이다.

실제로 NLP 알고리즘 분야에서 KL Divergence로 적절한 단어 혹은 문장 구조를 선택하는 것은 새로운 일이 아니다.

ChatGPT의 RLHF가 가진 특이사항

정리하면

기존 RL 알고리즘에 새로운 정보를 받아들일 수 있는 Correction이 반영되었고
새롭게 추가되는 작은 데이터 셋으로 기본 모델을 만드는 작업으로 예전 모델을 수정·보완하는데 활용하고,
모델 업데이트 되는 구조를 Bandit 형태로 접근하되,
오차 보정에 ε-greedy algorithm, UCB, Thomson sampling 대신 KL Divergence를 쓴다
텍스트 기반의 채팅 데이터이기 때문이다

ChatGPT 모델이 가진 학문적 한계

우선 ChatGPT가 밝힌 모델의 한계를 짚어보면

Lack of control study: SFT를 기반으로 하고 최종 PPO를 뽑는 과정에서 대조군이 없음
Lack of ground truth for the comparison data: 모델의 데이터 선택자 의지에 영향을 받음
Human preferences are just not homogeneous: 이용하는 사람들마다 의견이 다 다름
Prompt-stability testing for the reward model: 인간 선택이 얼마나 큰 영향을 미치는지 정도를 알 수가 없음
Wireheading-type issues: 특정 결과물에 쏠림 현상 나타나는 점

인데, 한 줄 요약하면 RL 모델의 보상 체계를 인간의 반응으로 하다보니 생기는 부작용이라고 말할 수 있다.

이전 글에서 언급한대로 현시선호에 기반할 경우, 선호가 충족해야 하는 여러 논리를 따르지 못하면 그 선호를 쓴 모델은 논리가 엉망이 된다. 선호 체계 이론에서 정한 공리(Axiom)을 보면

완비성(Completeness): 한 쪽이 더 낫다는 판단을 반드시 내릴 수 있다
이행성(Transitivity): 순서가 뒤집어지는 일이 없어야 한다
연속성(Continuity): 순서가 중간에 끊어지는 일이 없어야 한다
강단조성(Strong monotonicity): 많으면 많을 수록 좋다

로 정리되어 있다.

그러나, 실제 현실은 위의 공리를 만족시키지 않는 경우가 많기 때문에 선호 체계를 잡기가 쉽지 않다. ChatGPT에서 밝힌 문제점 5가지에서 2,3번이 선호 체계 동질성이 깨지기 때문에 나타나는 직접적인 한계고, 데이터 의존적인 추천 모델이 공통적으로 갖는 5번, 그 문제점이 얼마나 큰지 확인하기 쉽지 않은 4번, 그리고 모든 Semi-Supervised learning 모델들이 공통적으로 1번의 문제를 갖고 있다.

ChatGPT 모델이 가진 현실적 한계 – 사공이 많으면 배가 산으로 간다

위의 학문적 이야기가 잘 이해하기 쉽지 않을테니 지극히 현실적인 사례를 들면, 영화 보는거 좋아하는 사람과 야구 보는거 좋아하는 사람처럼, 완전히 다른 선호를 가진 사람들의 반응을 잣대로 삼다보면 즉, 사공이 많으면 배가 산으로 가는 상황이 생긴다고 설명할 수 있다.

본질적으로 현재까지 나온 모든 인공지능 모델들이 ‘논리’ 기반이 아니라 ‘데이터 기반’이기 때문에 근데 그 데이터가 동질적이지 않으면 어쩔 수 없이 감당해야 하는 부분이다.

다양성을 모두 포괄하는 인공지능 모델을 만들 수 있지 않느냐고 되물을 수 있겠지만, 데이터 기반의 모델 작업은 언제나 일반화를 위한 것이지, 전문화를 위한 것이 아니라는 점을 다시 한번 강조한다.

바둑판 위와 같은 정해진 논리가 있고, 그 논리를 많은 데이터로 찾아내고, 그 중 최적 논리를 계산하는 시스템이 아니라, 수 많은 사람들의 다양한 종류의 반응들에 맞춘 다양성을 담는 것은 애당초 이런 종류의 계산과학적 모델의 목표가 아니다. 마치 알파고를 수십, 수백, 수천 명의 다양한 바둑기사 스타일로 만들어 내는 것과 같은 작업이라고 하면 이해가 될까? ChatGPT나 과거의 알파고 모두, 그 중 가장 이길 확률이 높은 1명을 찾아내는 알고리즘일 뿐이다.

ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

Keith Lee 2023-02-10 00:002023-04-12 AI/DS논문이야기

ChatGPT에 맞서 구글에서 Bard라는 LaMDA 기반의 대형언어모델(LLM) 모델을 내놨다. 이미 오래전부터 나왔던 이야기고, 모델 자체가 데이터 물량에 크게 의존하는만큼, 세계 최대 검색엔진을 갖고 있는 구글이 유사한 서비스를 못 내놓을 것이라는 생각은 하지 않았었다. 아직 준비 중이었을텐데, 워낙 ChatGPT가 여론의 관심을 받으니 출시일을 좀 앞당긴 것 같은데, 제임스 우주 웹 망원경(JWST)에 대한 설명 중에, 태양계 밖에서 우리 지구의…

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ④

한성수 연구원 2023-09-18 12:002024-01-19 AI/DS논문이야기

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ③에서 이어집니다 가장 심한 불균형이 발생하는 지점은, 출퇴근 시간 대여와 반납이 활발히 일어나는 초 거대 업무 지구(예시: 강서 마곡업무 지구, 여의도 업무 지구, 성수동 지식산업센터 등)입니다. 이때 앞서 논의한 ‘평형상태’ 개념을 활용해 대여소별 자전거 수를 정확히 예측해낼 수만 있다면, 새벽 단 한 번의 재배치만으로 대여소별 일일 거치 자전거수를 최적화…

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ②

박정우 연구원 2022-12-13 09:002023-07-10 AI/DS논문이야기

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ①에서 이어집니다. 이전 글에서는 디지털 광고가 ‘1인 1 스마트폰 시대’에 힘입어 광고 시장의 메인스트림으로 우뚝 올라서게 됐으며, 이제는 업계 차원에서 ‘측정오차’에 대한 적절한 조치가 필요한 시점이라고 화두를 던졌죠. 이번 글부터는 통계적 모델링을 통해 측정오차가 실제 광고 성과에 어떤 영향을 미치는지 본격적으로 살펴보겠습니다. ‘계통오차’와 ‘랜덤오차’로 구분되는 측정오차 측정오차에 대한…

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ②

한성수 연구원 2023-09-15 09:002023-09-19 AI/DS논문이야기

[논문이야기] 이 많은 따릉이들은 어디서 왔을까? ①에서 이어집니다 따릉이 사용자의 시간별 패턴은 어떨까?(Part 3) 공공 자전거 재배치를 효율화하기 위해선 무엇보다도 따릉이 사용자의 시간별 사용 패턴을 파악하는 게 가장 급선무라고 생각했습니다. 이에 사용량이 가장 많은 시간대의 대여소별 자전거 대여 수와 반납 수를 파악하고자 했습니다. 실제 해당 사업의 주요 사용자 및 사용 시간을 조사한 결과, 따릉이는 오전…

[논문이야기] 부동산 경매시장의 버블 ①

박혜영 연구원 2022-11-16 09:002023-07-31 AI/DS논문이야기

부동산 시장이 침체기에 접어들면서 일각에서는 정부 차원에서 실물시장 충격을 최소화하기 위한 방침을 적극적으로 모색해야 한다는 목소리가 높다. 그러나 과거의 역사를 돌아보면 버블을 성공적으로 진압했던 사례는 전무하다. 이때 만약 버블을 선제적으로 탐지할 수 있다면, 부동산 시장에 새로운 문법을 쓸 수 있을 것이다. 주택 가격 내림세, 기준 금리 인상이 초래한 ‘부동산 거래 절벽 현상’ 한국부동산원이 내놓은 자료에…

[논문이야기] 상하수도 배수관 누수 탐지 ②

곽연숙 연구원 2023-09-12 09:002023-09-16 AI/DS논문이야기

[논문이야기] 상하수도 배수관 누수 탐지 ①에서 이어집니다 센서신호를 통해 이상값을 탐지하려면? 그렇다면 센서를 통해 측정된 시퀀스(sequence) 데이터(예: 시간에 따른 온도·수질 측정)에서 어떠한 패턴을 찾을 수 있을까? 또한 이런 센서 데이터에서 미래 값을 예측하거나 이상치(anomaly)를 탐지하는 데 중요한 방법은 무엇이 있을까? 먼저 시계열 속성을 띄는 시퀀스 데이터의 경우엔 다양한 방법으로 유사성(similarity)을 찾아낼 수 있다. 예컨대 거리…