ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

ChatGPT에 맞서 구글에서 Bard라는 LaMDA 기반의 대형언어모델(LLM) 모델을 내놨다.

이미 오래전부터 나왔던 이야기고, 모델 자체가 데이터 물량에 크게 의존하는만큼,

세계 최대 검색엔진을 갖고 있는 구글이 유사한 서비스를 못 내놓을 것이라는 생각은 하지 않았었다.

아직 준비 중이었을텐데, 워낙 ChatGPT가 여론의 관심을 받으니 출시일을 좀 앞당긴 것 같은데,

제임스 우주 웹 망원경(JWST)에 대한 설명 중에, 태양계 밖에서 우리 지구의 이미지(Exoplanets)를 인류 역사상 최초로 촬영한 것이 JWST라는 설명이 틀렸다며 한 차례 트위터가 돌았다.

실제 14년 전에 Exoplanets를 촬영했던 미 캘리포니아 주 산타크루즈 대학 천문대 총괄인 브루스 매킨토시(Bruce Macintosh)가 불편함을 표현하는 트위터를 공유하기도 했다.

대형언어모델(LLM), 아니 모든 데이터 기반 모델들의 한계

아마 저 위의 사소해보이는 오류는 어떤 방식으로건 수정할 것이다.

오류 정보가 섞인 데이터를 제거하거나, 직접 데이터 베이스에서 해당 데이터 라인을 찾아 내용을 변경하거나,

아니면 아예 관련 질문에 대해 답을 고정하는 방식으로 좀 더 단순하게 대응하는 방법도 있을 수 있다.

현실적으로 가장 합리적으로 보이는 선택은 오류 섞인 데이터를 삭제하는 것이다.

그런데, 구글 검색으로 보는 많은 정보들이 실제로 틀린 정보고,

그 정보들이 ChatGPT나 Bard 같은 LLM 모델들이 의존하는 정보라면, 저런 오류 사태가 한 번으로 그치게 될까?

실제로 Bard의 오류 정보가 인터넷에 돌자마자 구글 주가는 7%나 빠졌다.

그간 구글 검색 결과물에 보이는 웹페이지들 정보에 대한 신뢰도가 100%가 아니었던 만큼,

몇 번 더 틀린 사례로 이런저런 정보가 인터넷 상에 돌아다닐텐데, 신뢰도가 급격히 떨어질 것이 뻔하다.

앞서 설명한대로, LLM 모델은 확률적(Probabilistic)으로 반응하지, 확정적(Deterministic)으로 반응하지 않은 알고리즘이다.

정확한 답변을 알려주는게 아니라, 그 대답을 하는 시점 기준으로 가장 최근에 많이 쓰였던 있는 정보에 기반한 답변이 나온다.

한 AI 전공 교수는 LLM 모델들을 “Bullshit generators(엉뚱한 결과물을 내놓는 기계)”라고 평하기도 했다.

나 역시도 LLM 모델들에 대해 광적인 반응을 보이고 있는 요즘 상황이 잘 이해되질 않는다.

어린시절 심심할 때 몇 번 써보다 재미없어서 잊어버렸던 ‘맥스(Max)’라는 채팅 프로그램 느낌에 불과하다.

단지 좀 더 많은 정보를 처리할 수 있는 데이터 베이스가 뒤에서 받쳐주고 있을 뿐이다.

LLM을 응용하고 싶은 회사

저런 언어 서비스들이 전문적인 답변을 내놓을 수 없는만큼 딱히 인간 노동력을 대체하거나 할 것 같지는 않은데,

웃기게도 회사가 어느 정도 안착되고 나면 앞으로 2년 정도 시간을 써서 LLM을 우리 회사 서비스에 구현할 계획이다.

우리가 LLM이 필요한 이유는 아래의 두 가지다.

긁어온 텍스트 정보를 윤문하는 작업 / 맞춤법 뜯어고치는 작업 대체
검색 엔진 서비스

언론사 시스템을 운영하면서 본의 아니게 편집 인력을 고용할 수 밖에 없었다.

나 스스로도 급하게 문서를 쓰면 오타 투성이에 맞춤법 오류가 여러군데서 나타난다.

글을 쓰는 사람들 사정이 크게 다르지 않을 것이다.

남들이 써 놓은 문장을 간단하게 윤문하고 기사로 찍어내는 기자들을 뽑아보고 나면,

멸칭으로 ‘기레기’라는 표현으로 불리는 그들에게 굳이 월급을 줘야하나는 의구심이 든다. 아주 많이.

아마 그런 사람들은 LLM이 제대로 돌아가면 대부분 퇴출될 것이다.

그런 인력이 필요한 회사들은 당연히 고급 역량을 갖춘 LLM을 쓰고 싶겠지.

그간 국내 인력들 경험을 봤을 때, 한국어로 제대로 돌아가는 LLM 모델이 아주 오랫동안 없을 것이 확실하기 때문에,

회사 시스템을 어느 정도 올려놓고나면 누가 만든 걸 쓰는 관점이 아니라 직접 만들어야겠다고 생각하게 됐다.

LLM 개발의 난제 – 1.수학 모델이 아니라 언어 사전

외부에서는 LLM이 엄청난 인공지능 전문가가 만들었고, 한국의 기술력이 엄청나게 모자라기 때문에 못 따라간다고 생각하더라.

실제로는 LLM이 기반하고 있다는 ’인간 피드백형 강화학습(RLwHF)’이 그렇게 엄청난 수학 모델이 아니다.

강화학습 모델은 어지간한 동적 최적화 연구를 해 본 연구자라면 다 알고 있는 지식이고,

인간 피드백형은 보정해주기 위해 쓰는 보상(Reward) 값만 바꿔 넣도록 수식과 코드 일부만 수정하면 된다.

문제는 언어 사전이다.

사실 거의 대부분의 빅데이터 기반 시스템이 수학 지식의 문제가 아니라 서버 지원과 인력 문제 때문에 출시가 지연된다.

국내에서 자연어처리(NLP) 분야 관련 개발자들에게 물어보면,

대부분 일본에서 만들었던 단어 사전에 한국어 사전으로 바꿔 끼워넣은 몇몇 사전 서비스를 쓴다.

일본에서 C++로 만들어놨고, 국내에서 워낙 Java를 많이 쓰니 Java로 옮겨놓은(Porting) 버전도 있다고 들었다.

우리회사에서 빅데이터 대시보드를 만들 때도 저 사전을 활용하고 있는데,

단어들이 회사 목적과 다른 분류로 들어간 경우가 너무 많기 때문에

정치, 경제, 사회·문화 등의 주요 사정에 맞춰 단어 처리하는 방식을 조금씩 바꿔놨다.

어쩔 수 없이 수작업으로 단어의 속성을 지정하는 경우가 비일비재한 것을 피할 수가 없더라.

저런 자연어처리 전문 사전을 서비스 별로 맞춰서 뽑아내야 텍스트 데이터들을 처리한 계산 시스템을 돌릴 수 있다.

보통 데이터 작업을 하면 연구 시간의 95%를 데이터 수집 및 처리, 5%를 수학 알고리즘 돌리는데 쓴다고 하는데,

LLM을 만들려고 해도 사정이 별반 다르지 않다.

다만 데이터 처리 작업에서 의존하는 잣대가 자연어처리 전문 사전이라는 점, 그게 한국에서 아직 기초적인 수준이라는 점이

한국의 기술력이 모자라다고 오해받는 부분이다.

LLM 개발의 난제 – 2.수학 모델이 아니라 서버

사실 더 큰 문제는 그런 시스템을 다 만들어도 일반에 서비스 할 수 있는 서버 자원이 있느냐다.

단순히 돈을 들여 초대형 서버실 같은 하드웨어를 준비하는 것도 물론 중요하겠지만,

국내 인력들 대다수가 간과하는 부분이, 그런 하드웨어를 위의 LLM 서비스에 맞춰 돌아가도록 하는

소프트웨어 개발이다.

좀 더 정확하게는 LLM의 수학 모델이 돌아가면서 동시에 보유하고 있는 하드웨어 자원을 효율적으로 쓸 수 있도록 해 주는

그런 소프트웨어를 개발하는 것이 또 엄청난 과제다.

단순히 분산처리를 하는 것에 그치지 않고, 여러 사용자에게 동시에 서비스를 제공해주는데,

각자의 사정이 다를테니 개인별 사정에 맞춰 다른 샘플 데이터로 SFT를 뽑아 답변을 만들어 내야할지,

아니면 최근 트렌드가 있으니 최근 질문 및 답변 데이터들로 SFT를 뽑아야 할지,

각각의 선택에 따라 수식에 들어가는 가중치가 달라지고, 하드웨서 운용 방식도 달라진다.

아마 개인별 사정을 고려하려면 사람 마다 다른 특성값을 지수(Index) 형태로 저장해놔야 할텐데,

그렇게 개인화된 정보를 넣고 맞춤형 LLM이 돌아가려면 서버 비용은 또 엄청나게 증가한다.

현실적으로 도전하는 방식

우리 회사 같은 경우는 ’인간 피드백형 강화학습(RLwHF)’ 모델을 제대로 이해하고 구현할 수 있는 Data Scientist가 이미 있고,

분산처리 및 사용자 적합한 서비스를 할 수 있는 서버용 소프트웨어 개발도 어느 정도 되어 있다.

우리에게 문제는 LLM용으로 자연어처리 사전을 뜯어 고치는 작업을 해야한다는 것이다.

물론 수백억원 이상이 필요할 것으로 보이는 대형 서버실 설비를 갖추는 것도 도전 과제 중 하나다.

회사마다 사정은 다르겠지만, 아마 대부분의 국내 인력들은 ’인간 피드백형 강화학습(RLwHF)’의 코드를 붙여넣기 바쁠 것이고,

대신 개발자들 중 뛰어난 역량을 갖춘 일부는 분산처리를 위한 서버 프로그래밍은 가능할 것 같다.

다만 사용자별로 다른 특성값을 지수 형태로 뽑고 유저별로 커스터마이징(Customizing)을 하는데 쓰는건 간단한 도전을 아닐 것 같고,

반면 서버 비용 문제는 대기업들의 경우에는 큰 문제 없이 소화할 수 있을 것이라고 생각한다.

쭉 써놓고 보니, 한국에서 네이버의 아성에 도전하려는 검색 포털 서비스가 있다면,

LLM 사업에 한번쯤 고민을 해 볼만한 가치는 있어 보인다.

데이터 사이언스와 게임이론

Keith Lee 2018-03-19 12:122024-04-14 AI/DS교육

데이터 사이언스라는 업무가 결국은 빅데이터가 있는 곳에서만 유의미한 탓에, IT업계 정도만 진짜 빅데이터를 갖고 뭔가 여러가지 시도를 하고 있는 것을 본다. 얼마 전까지만해도 한국의 IT회사들 대부분이 이미지 인식이나 음성 인식같은 기초적인 데이터 사이언스 업무에만 관심을 갖고, Noise가 더 많은 데이터를 처리 or 가공하려는 시도는 안 하는 통에 많은 경우에 공대 출신 개발자들에 대한 수요만 많은…

머신러닝 다루는 컴퓨터과학과, 통계학과 수업들

Keith Lee 2018-04-03 15:162024-04-14 AI/DS교육

수업에 찾아오는 공대생들이 매번 넋나간 표정으로 앉아있는 것 같아서, 도대체 우리나라 공대들은 어떤걸 가르치길래 문과인 경제학과 출신도 따라오는 수학&통계학도 이해 못해서 쩔쩔매고, 학부 수업에 머신러닝 관련된 전공 수업이 얼마나 없길래 외부에 저렇게 학원들이 많이 생기는지 궁금해졌다. 우리학교 Computer Science 학과 웹페이지에 교과목 정보 리스트를 쭈욱~ 훑어봤는데, 필요한 수업들 다 있는데? (Source: 인스티즈) 학부 아니고 대학원이라구요?…

구글 애널리틱스 (Google Analytics)를 쓰다가

Keith Lee 2017-06-24 16:302024-04-14 AI/DS교육

밥 먹고 사는 타이틀을 데이터 사이언티스트로 달고 난 이래 줄곧 온라인 유저 데이터를 보고 살아온 탓에 “중독”증상이 좀 있는 것 같다. 처음 이 웹페이지를 만들고 난 다음에 제일 먼저 했던 일이 예쁘게 꾸미는 테마 구하는게 아니라, 데이터 추적하는 구글 애널리틱스 (Google Analytics)를 설치하고, 필자의 IP 주소를 블랙리스트 시켜서 숫자 합산에 포함되지 않도록 하는 일이었다. (필자는…

딥러닝이 제일 열등한 모델인데 몰랐어? (3)

Keith Lee 2020-09-14 00:002024-04-14 AI/DS교육

딥러닝이 제일 열등한 모델인데 몰랐어? 라는 글을 올리고 난 다음에 온갖 종류의 불평 불만을 다 받았는데, 주니어들이 시니어가 멍청하면 같이 일 하기 싫어한다는 사실이 너무너무 명백하게 드러나는 글들이 많아 아예 시리즈 글로 좀 만들고 있는 중이다. 한 줄 요약하면, Data Science 팀의 주니어들이 파이썬 + 코딩 만능주의에 사로잡힌 (수리통계학 지식 전무한) 시니어들을 어떤 눈으로 바라보고…

Blockchain 시리즈 – Smart Contract

Keith Lee 2018-12-21 00:002024-04-14 AI/DS교육

비트코인 가격 (대)폭락으로 코인에 대한 일반 대중의 관심은 많이 시들해졌지만, 여전히 “차세대” 코인이라는 이더리움 (Ethereum) 류의 가상화폐에는 관심이 남아있는 걸 종종 보게 된다. “앞으로 기술이 더 발전하면 나아지지 않을까?” 라는 뒷맛을 남기는 코멘트에는 언제나 이더리움이 등장하더라. 이더리움이 Smart Contract를 상징하는 대표 코인이라는 점을 미뤄볼 때, 슬슬 블록체인 Hype이 한풀 꺾이고, 요즘은 Smart Contract가 대세로 자리잡고…

“인공지능”이라는 사기는 그만둡시다

Keith Lee 2018-07-27 00:002024-04-14 AI/DS교육

지금 우리가 만나고 있는 “인공지능”은 사실 “지능”이 아니라, 데이터에서 뽑아낸 패턴들로 이뤄낸 고급 자동화라는 사실을 여러번 강조하고 있다. 이전에는 단순한 규칙만을 입력한 자동화였다가, 이제는 데이터에서 더 다양한 규칙들을 뽑아내서 자동화를 좀 더 복잡한 수준으로 할 수 있는 정도에 불과하니 이건 “지능”이 아니라 “규칙”을 “저장”하는 것에 불과하다고 했다. 본 블로그에서 여러번 강조하듯이, 단순히 데이터의 용량이 커져서가…