ChatGPT 시리즈 – ③’인간 피드백형 강화학습(RLwHF)’의 한계

20
pabii research

8.RLHF로 할 수 있는 것과 할 수 없는 것

자, 이제 이 시리즈 글의 가장 본질적인 목적으로 돌아와보자.

위의 논리를 이해했다면 굳이 ‘실험’에 의존하지 않고도 어떤 데이터와 어떤 목적일 때 RLHF가 효과적일 수 있을지 가늠이 될테니,

논리부터 한번 정리해보자.

 

우선, 일반에 ‘강화학습’으로 알려진 계산법은,

고교 시절에 봤던 미분 최적화 + 수열의 대학 방식 계산인데, 그걸 반복적으로 쓸 수 있는 경우에만 유용한 ‘동적 최적화’라는 틀을 따른다.

그러나 항상 수식을 갖춰야하는 경우와 달리, ‘강화학습’은 데이터에서 그 수식을 역추적해내는 구조의 계산이 돌아가기 때문에,

복잡한 규칙 속에 단순한 논리가 숨어있는 데이터들에서 주요한 성과를 보였다.

바둑부터 스타크래프트까지 다양한 종류의 게임들이 결국 논리만 잘 이해하면 게임을 잘 하는 사람이 될 수 있다보니

‘머리가 좋은 사람’의 상징처럼 되었는데, 그 상징에 해당하는 ‘논리 파악’을 잘 못하는 평범한 인간 뿐만 아니라,

더 뛰어난 인간들도 이길 수 있는 시스템이 나왔다.

 

단, 논리를 잘 이해할 수 있는, 복잡해 보이는 규칙 속에 사실 단순한 논리를 얼마나 효율적으로 쓰느냐에 달린 문제들에서만 성과를 볼 수 있었다.

 

그러나 단순한 논리로 만들어 내기에는 갖은 종류의 오차가 있는 경우에는 어려움을 겪을 수 밖에 없었고,

이 덕분에 인공지능이 모든 것을 다 해낼 것이라는 ‘강 인공지능’이 불가능하다는 이야기를

제대로 공부한 전문가들이라면 공통적으로 내놨던 것이다.

 

이번 RLHF는 그런 오차 보정의 방법 중 하나로, 인간의 반응을 활용하는 변형 계산이다.

사과와 배를 놓은 상태에서 사과를 골랐으면 사과보다 배가 더 선호된다는 논리를 활용하는 것이다.

 

이런 현시선호 이론 기반의 논리적 접근이 몇 가지 문제가 있는데, 그 중 하나를 고르면

  • 사과, 배가 있을 때는 사과,
  • 오렌지,사과가 있을 때는 오렌지,
  • 배, 오렌지가 있을 때는 배

이렇게 고르는 경우가 있으면 어떻게 될까?

학문적으로는 이행성(Transivity)이 깨지는 경우라는 표현을 쓰는데,

사과 > 배 > 오렌지 > 사과…. 라는 순환 논리가 생기게 된다.

 

RLHF를 비롯한 모든 RL 계열의 모델들, 아니 모든 데이터 기반 모델들은

기본적으로 바닥에 깔린(Underlying) 가정이 깨지는 순간 무의미한 모델이 된다.

이행성이 갖춰져 있을 것이라고 가정했던 현시 선호에서 이행성이 깨진다면?

 

실제로 수 많은 사람들의 반응은 커녕, 단 1명의 반응을 봐도 주변 옵션에 따라 이행성이 깨진 선택을 하는 경우가 많다.

당연히 RLHF도 이렇게 이행성이 깨지는 데이터가 입력되면 어느 쪽이 더 최적 선택인지 판단이 뒤섞인 답을 내놓을 것이다.

 

입력 데이터의 숫자를 늘려 특정 과일 조합이 압도적으로 많아져서 다른 조합을 무시하게 될 수도 있겠지만,

가중치를 어떻게 주느냐는 또 다른 문제로 남는다.

 

좀 더 일상에 가까운 예시 – LGBT vs. Anti-LGBT

현실적으로 잘 안 와닿을 수도 있으니 좀 더 일상에 가까운 예시를 들어보자.

LGBT 집단과 LGBT를 혐오하는 집단이 있다고 가정해보자.

LGBT 집단이 소수일 경우, 입력 데이터 숫자에 가중치를 의존하는 경우에는 LGBT 혐오 기반의 답변을 내놓게 된다.

단순히 한 쪽의 승, 패가 아니라 양쪽 모두를 고려한다고하면 둘 모두의 의견을 모두 담은 답안을 내놓을 수 밖에 없다.

근데 당신이 제출해야하는 레포트는 LGBT 집단의 논리를 옹호하는 에세이여야 했다면 RLHF 기반의 알고리즘은 어떤 도움이 될까?

물론 특정 집단을 더 고려해달라는 추가 요청에 반응해 줄 수 있다면 LGBT 옹호 논리의 에세이까지는 내놓을 수 있을지 모르나,

과제에 특정 요소, 요소를 결합하라는, 수업을 들은 학생만 답변할 수 있는 요소가 있어야 한다면 한계점을 보일 수 밖에 없다.

 

RLHF 기반의 ChatGPT는 결국 ‘일반론’ 기반의 답안을 내놔도 무방한 곳에 쓰일 것이라는 결론이 나온다.

단지 입력하는 종류의 데이터 다양성이 매우 커지게 되면 좀 더 다양한 문제에 대해 ‘일반론’을 내놓을 수는 있을 것이다.

 

덕분에 미국 초·중·고교나 MBA 등으로 실제 가르치는 내용의 깊이는 깊지 않은 ‘일반론’ 위주에

문장 위주로 논리적 서술만 갖춰지면 좋은 점수를 받을 수 있는 과목들에서 ChatGPT로 과제나 시험을 대체할 수 있게 되고,

반대로 수학 논리를 세워 문제를 풀어야하는 경우에는 큰 도움이 되지 않는 것이다.

 

특정 분야에 아직 출판(Publish)되지 않은 논문을 입력하고,

그 논문에 평가 써 주기가 너무 귀찮으니까 ChatGPT에게 대신 해 달라고 하면 어떻게 될까?

그런 비판적 리뷰(Critical Review)를 할 수 있는 가능성은 0에 수렴한다.

 

9.인공지능에 대한 과잉 기대는 말아야

현실적으로 인공지능으로 불리는 ‘패턴매칭 알고리즘(Pattern matching algorithm)’의 그 어떤 것도

‘강 인공지능’을 만들어 낼 수는 없다. 자기 스스로 학습이라는 과장 표현에 현혹되지 않고 모델 자체의 수학 논리를 보면,

좀 더 선호하는 선택지에 더 가산점을 줘서 그런 선택지를 우선으로 배정하는 방식으로 오차를 보정하겠다는 것에 불과하다.

 

이런 ‘패턴매칭’은 언제나 ‘일반론’을 찾는데 쓰이지 ‘특별론’을 찾는데 쓰일 수 없다.

사람들의 선택지를 따라갈 뿐인데, 다수의 선택지를 따라가는 것이 어떻게 특별론인가?

 

RLHF의 가장 큰 장점은 학계에서 “Algorithm Bias“라고 불리는 모델 자체의 오차를 인간 반응으로 보정하는 길을 열었다는 것이다.

ChatGPT가 RLHF를 구현하기 위해 엄청난 물량의 데이터를 처리할 수 있는 컴퓨터 공학적 도전에 성공한 점,

특히 일반에 서비스 할 수 있는 수준으로 데이터와 RLHF 모델 그 자체간의 격차를 좁힌 부분은 물론 엄청난 성과다.

 

그러나 이런 도전으로는 ‘강 인공지능’이 나오는 것이 아니라 ‘약 인공지능’이 좀 더 많은 일을 할 수 있도록 오차를 줄일 뿐이다.

RLHF 모델 그 자체는 수학적으로 오차를 줄이고, ChatGPT는 사업화하면서 공학적으로 오차를 줄이는 방안을 냈을 뿐이다.

 

10. ChatGPT 덕분에 예상되는 변화

마이크로소프트가 10억 달러의 투자금을 쏟아부은 덕분에 ChatGPT가 40달러에서 20달러로 서비스 가격을 인하했다.

덕분에 아마 일반론으로 빠른 답변을 내는 많은 직업군이 타격을 받을 것이다.

그 일반론이 특히 많은 사람들이 하고 있는 업무일수록 타격을 받을 확률이 높다.

 

단순한 홍보 블로그를 쓰는데 초안을 뽑아내 준다던가, 초·중·고교 수준, 심지어 MBA 수준의 레포트도 무리 없을 확률이 높다.

모두 복잡한 지식이 필요한 것이 아니라 구글 검색을 조금하면 충분히 답안을 작성할 수 있기 때문이다.

좀 더 나아가면 단순한 법률 해석이 필요한 업무 정도는 변호사를 충분히 대체할 가능성이 높다.

과거에도 구글 검색으로 대체할 수 있다는 평이 나왔었으나 여전히 한계가 있다는 분위기가 대세였는데,

법, 의료 등의 면허증 기반의 업무 중 상당수가 단순한 형량 측정, 약 처방인만큼 대체 가능성이 커질 것은 분명하다.

반면 전문적인 법 해석이 필요하거나 수술 치료가 필요한 경우가 모두 대체되는 것은 완전 불가능하다고 단언할 수 있다.

 

검색으로 가능한 영역의 예시로 국내 기준으로 경영학과 같은 전공은 지금도 구글 검색만으로 A학점을 따는데 어려움이 없었는데,

앞으로는 그렇게 쉬운 학점을 따기가 더 편해질 가능성이 높다.

로스쿨들이 경영학과 학점은 과장이 심하다는 이유로 인정해주지 않는다던데, 그 경향성이 더 심해질 것이다.

경영학과도 검색 수준의 지식이 아닌 전공을 학습할 수 없으면 사회적으로 도태되는 속도가 더 가속화 되지 않을까?

 

같은 측면에서 검색도 결과물을 좀 더 고급으로 내놓을 수 있게 될 가능성이 높다.

검색자가 클릭하지 않은, 즉 선택하지 않은 웹사이트를 후순위로 밀어내는데

과거 구글이 이용했던 eigenCentrality 알고리즘보다 더 인간 반응을 적극적으로 고려할 수 있기 때문이다.

다만 웹사이트 간의 복잡한 상관관계, 즉 네트워크 구조는 쉽게 대체하기 힘들텐데,

똑똑한 인재들이 둘을 어떻게 결합해 검색 엔진 최적화에 쓰게 될지 자못 궁금해진다.

Similar Posts