ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

3
pabii research

ChatGPT에 맞서 구글에서 Bard라는 LaMDA 기반의 대형언어모델(LLM) 모델을 내놨다.

이미 오래전부터 나왔던 이야기고, 모델 자체가 데이터 물량에 크게 의존하는만큼,

세계 최대 검색엔진을 갖고 있는 구글이 유사한 서비스를 못 내놓을 것이라는 생각은 하지 않았었다.

 

구글 Bard의 답변/출처=구글

아직 준비 중이었을텐데, 워낙 ChatGPT가 여론의 관심을 받으니 출시일을 좀 앞당긴 것 같은데,

제임스 우주 웹 망원경(JWST)에 대한 설명 중에, 태양계 밖에서 우리 지구의 이미지(Exoplanets)를 인류 역사상 최초로 촬영한 것이 JWST라는 설명이 틀렸다며 한 차례 트위터가 돌았다.

실제 14년 전에 Exoplanets를 촬영했던 미 캘리포니아 주 산타크루즈 대학 천문대 총괄인 브루스 매킨토시(Bruce Macintosh)가 불편함을 표현하는 트위터를 공유하기도 했다.

 

대형언어모델(LLM), 아니 모든 데이터 기반 모델들의 한계

아마 저 위의 사소해보이는 오류는 어떤 방식으로건 수정할 것이다.

오류 정보가 섞인 데이터를 제거하거나, 직접 데이터 베이스에서 해당 데이터 라인을 찾아 내용을 변경하거나,

아니면 아예 관련 질문에 대해 답을 고정하는 방식으로 좀 더 단순하게 대응하는 방법도 있을 수 있다.

현실적으로 가장 합리적으로 보이는 선택은 오류 섞인 데이터를 삭제하는 것이다.

 

그런데, 구글 검색으로 보는 많은 정보들이 실제로 틀린 정보고,

그 정보들이 ChatGPT나 Bard 같은 LLM 모델들이 의존하는 정보라면, 저런 오류 사태가 한 번으로 그치게 될까?

실제로 Bard의 오류 정보가 인터넷에 돌자마자 구글 주가는 7%나 빠졌다.

그간 구글 검색 결과물에 보이는 웹페이지들 정보에 대한 신뢰도가 100%가 아니었던 만큼,

몇 번 더 틀린 사례로 이런저런 정보가 인터넷 상에 돌아다닐텐데, 신뢰도가 급격히 떨어질 것이 뻔하다.

 

앞서 설명한대로, LLM 모델은 확률적(Probabilistic)으로 반응하지, 확정적(Deterministic)으로 반응하지 않은 알고리즘이다.

정확한 답변을 알려주는게 아니라, 그 대답을 하는 시점 기준으로 가장 최근에 많이 쓰였던 있는 정보에 기반한 답변이 나온다.

한 AI 전공 교수는 LLM 모델들을 “Bullshit generators(엉뚱한 결과물을 내놓는 기계)”라고 평하기도 했다.

 

나 역시도 LLM 모델들에 대해 광적인 반응을 보이고 있는 요즘 상황이 잘 이해되질 않는다.

어린시절 심심할 때 몇 번 써보다 재미없어서 잊어버렸던 ‘맥스(Max)’라는 채팅 프로그램 느낌에 불과하다.

단지 좀 더 많은 정보를 처리할 수 있는 데이터 베이스가 뒤에서 받쳐주고 있을 뿐이다.

 

LLM을 응용하고 싶은 회사

저런 언어 서비스들이 전문적인 답변을 내놓을 수 없는만큼 딱히 인간 노동력을 대체하거나 할 것 같지는 않은데,

웃기게도 회사가 어느 정도 안착되고 나면 앞으로 2년 정도 시간을 써서 LLM을 우리 회사 서비스에 구현할 계획이다.

 

우리가 LLM이 필요한 이유는 아래의 두 가지다.

  • 긁어온 텍스트 정보를 윤문하는 작업 / 맞춤법 뜯어고치는 작업 대체
  • 검색 엔진 서비스

 

언론사 시스템을 운영하면서 본의 아니게 편집 인력을 고용할 수 밖에 없었다.

나 스스로도 급하게 문서를 쓰면 오타 투성이에 맞춤법 오류가 여러군데서 나타난다.

글을 쓰는 사람들 사정이 크게 다르지 않을 것이다.

 

남들이 써 놓은 문장을 간단하게 윤문하고 기사로 찍어내는 기자들을 뽑아보고 나면,

멸칭으로 ‘기레기’라는 표현으로 불리는 그들에게 굳이 월급을 줘야하나는 의구심이 든다. 아주 많이.

아마 그런 사람들은 LLM이 제대로 돌아가면 대부분 퇴출될 것이다.

그런 인력이 필요한 회사들은 당연히 고급 역량을 갖춘 LLM을 쓰고 싶겠지.

 

그간 국내 인력들 경험을 봤을 때, 한국어로 제대로 돌아가는 LLM 모델이 아주 오랫동안 없을 것이 확실하기 때문에,

회사 시스템을 어느 정도 올려놓고나면 누가 만든 걸 쓰는 관점이 아니라 직접 만들어야겠다고 생각하게 됐다.

 

LLM 개발의 난제 – 1.수학 모델이 아니라 언어 사전

외부에서는 LLM이 엄청난 인공지능 전문가가 만들었고, 한국의 기술력이 엄청나게 모자라기 때문에 못 따라간다고 생각하더라.

실제로는 LLM이 기반하고 있다는 ’인간 피드백형 강화학습(RLwHF)’이 그렇게 엄청난 수학 모델이 아니다.

강화학습 모델은 어지간한 동적 최적화 연구를 해 본 연구자라면 다 알고 있는 지식이고,

인간 피드백형은 보정해주기 위해 쓰는 보상(Reward) 값만 바꿔 넣도록 수식과 코드 일부만 수정하면 된다.

 

문제는 언어 사전이다.

사실 거의 대부분의 빅데이터 기반 시스템이 수학 지식의 문제가 아니라 서버 지원과 인력 문제 때문에 출시가 지연된다.

 

국내에서 자연어처리(NLP) 분야 관련 개발자들에게 물어보면,

대부분 일본에서 만들었던 단어 사전에 한국어 사전으로 바꿔 끼워넣은 몇몇 사전 서비스를 쓴다.

일본에서 C++로 만들어놨고, 국내에서 워낙 Java를 많이 쓰니 Java로 옮겨놓은(Porting) 버전도 있다고 들었다.

 

우리회사에서 빅데이터 대시보드를 만들 때도 저 사전을 활용하고 있는데,

단어들이 회사 목적과 다른 분류로 들어간 경우가 너무 많기 때문에

정치, 경제, 사회·문화 등의 주요 사정에 맞춰 단어 처리하는 방식을 조금씩 바꿔놨다.

어쩔 수 없이 수작업으로 단어의 속성을 지정하는 경우가 비일비재한 것을 피할 수가 없더라.

 

저런 자연어처리 전문 사전을 서비스 별로 맞춰서 뽑아내야 텍스트 데이터들을 처리한 계산 시스템을 돌릴 수 있다.

보통 데이터 작업을 하면 연구 시간의 95%를 데이터 수집 및 처리, 5%를 수학 알고리즘 돌리는데 쓴다고 하는데,

LLM을 만들려고 해도 사정이 별반 다르지 않다.

다만 데이터 처리 작업에서 의존하는 잣대가 자연어처리 전문 사전이라는 점, 그게 한국에서 아직 기초적인 수준이라는 점이

한국의 기술력이 모자라다고 오해받는 부분이다.

 

LLM 개발의 난제 – 2.수학 모델이 아니라 서버

사실 더 큰 문제는 그런 시스템을 다 만들어도 일반에 서비스 할 수 있는 서버 자원이 있느냐다.

단순히 돈을 들여 초대형 서버실 같은 하드웨어를 준비하는 것도 물론 중요하겠지만,

국내 인력들 대다수가 간과하는 부분이, 그런 하드웨어를 위의 LLM 서비스에 맞춰 돌아가도록 하는

소프트웨어 개발이다.

 

좀 더 정확하게는 LLM의 수학 모델이 돌아가면서 동시에 보유하고 있는 하드웨어 자원을 효율적으로 쓸 수 있도록 해 주는

그런 소프트웨어를 개발하는 것이 또 엄청난 과제다.

 

단순히 분산처리를 하는 것에 그치지 않고, 여러 사용자에게 동시에 서비스를 제공해주는데,

각자의 사정이 다를테니 개인별 사정에 맞춰 다른 샘플 데이터로 SFT를 뽑아 답변을 만들어 내야할지,

아니면 최근 트렌드가 있으니 최근 질문 및 답변 데이터들로 SFT를 뽑아야 할지,

각각의 선택에 따라 수식에 들어가는 가중치가 달라지고, 하드웨서 운용 방식도 달라진다.

 

아마 개인별 사정을 고려하려면 사람 마다 다른 특성값을 지수(Index) 형태로 저장해놔야 할텐데,

그렇게 개인화된 정보를 넣고 맞춤형 LLM이 돌아가려면 서버 비용은 또 엄청나게 증가한다.

 

현실적으로 도전하는 방식

우리 회사 같은 경우는 ’인간 피드백형 강화학습(RLwHF)’ 모델을 제대로 이해하고 구현할 수 있는 Data Scientist가 이미 있고,

분산처리 및 사용자 적합한 서비스를 할 수 있는 서버용 소프트웨어 개발도 어느 정도 되어 있다.

 

우리에게 문제는 LLM용으로 자연어처리 사전을 뜯어 고치는 작업을 해야한다는 것이다.

물론 수백억원 이상이 필요할 것으로 보이는 대형 서버실 설비를 갖추는 것도 도전 과제 중 하나다.

 

회사마다 사정은 다르겠지만, 아마 대부분의 국내 인력들은 ’인간 피드백형 강화학습(RLwHF)’의 코드를 붙여넣기 바쁠 것이고,

대신 개발자들 중 뛰어난 역량을 갖춘 일부는 분산처리를 위한 서버 프로그래밍은 가능할 것 같다.

다만 사용자별로 다른 특성값을 지수 형태로 뽑고 유저별로 커스터마이징(Customizing)을 하는데 쓰는건 간단한 도전을 아닐 것 같고,

반면 서버 비용 문제는 대기업들의 경우에는 큰 문제 없이 소화할 수 있을 것이라고 생각한다.

 

쭉 써놓고 보니, 한국에서 네이버의 아성에 도전하려는 검색 포털 서비스가 있다면,

LLM 사업에 한번쯤 고민을 해 볼만한 가치는 있어 보인다.

Similar Posts