[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (2)

LLM, 규모 커지면 갑자기 “창발적” 능력 갖게 되기도 충분한 데이터, 학습 알고리즘, 계산 능력 3요소 모두 있어야 LLM이 제 기능 할 수 있어 LLM, 주어진 텍스트 보고 스스로 질문하는 “자체 감독” 방식으로 훈련된다

pabii research

[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (1)에서 이어집니다.

하지만 LLM이 어떤 결과물을 내는지는 완전한 미지의 영역입니다. 모델의 규모가 커지면서 소위 말하는 “창발적” 능력이 발현되기 때문입니다. 오픈AI의 한 연구원에 따르면 다양한 종류의 LLM이 지닌 창발적 능력은 137개에 이릅니다.

창발적 능력은 모두 LLM의 훈련 데이터나 주어진 프롬프트에 기인합니다. 무슨 마법처럼 나타나는 능력은 아니라는 겁니다. 그러나 LLM이 특정한, 굉장히 큰 임계값을 넘어서기 전까지는 분명해지지 않습니다. 예를 들면 어떤 크기의 LLM은 무작위로 글을 쓸 수는 있지만 성별이 포함된 독일어 문장을 작성하지는 못합니다. 그런데 이때 모델의 크기를 더 키우면 갑자기 새로운 능력이 나타납니다.

사진=GPT-4 공식 홈페이지

또 앞서 언급했듯이 GPT-4는 미국 변호사 시험의 하나인 American Uniform Bar Examination을 굉장히 훌륭한 점수로 통과했는데, 그보다 조금 더 작은 GPT-3.5는 탈락의 고배를 마셨습니다.

이러한 창발적 능력은 LLM의 아직 개척되지 않은 잠재력을 암시하기에 흥미롭습니다. 모델의 크기를 키우면 모델이 갑자기 못 하던 작업을 거뜬히 수행한다니, 관심이 생기지 않을 리가 없죠. 하지만 그만큼 우려의 목소리도 높습니다. 모델이 커지면 특정한 사회적 편향이 나타난다는 연구 결과도 있죠. 모델에 어떤 잠재적인 유해성이 존재하는지, 지금은 눈에 보이지 않더라도 모델의 규모가 조금만 더 커지면 이런 유해성이 드러나는 건 아닌지 파악하는 건 쉽지 않습니다.

방대한 양의 데이터, 이 데이터로부터 학습을 할 수 있는 알고리즘, 그리고 이 학습을 수행할 수 있는 계산 능력이라는 세 가지 요소가 모두 있어야 LLM이 설득력 있는 텍스트를 만들고, 창발적 능력이 출현하게 됩니다. GPT-4에 대한 세부 사항은 아직 베일에 싸여 있지만, GPT-3의 구성과 기능은 지난 2020년 오픈AI가 발표한 논문을 통해 공개됐습니다.

GPT-3 신경망의 가중치는 학습 데이터를 보기 전에는 무작위로 부여돼 있습니다. 이 경우 프로그램은 말도 안 되는 문장을 만들어내죠. 프로그램은 훈련을 거쳐야 말이 되고 유창한 응답을 내놓을 수 있습니다. GPT-3의 훈련 데이터는 다양하지만, 대부분은 비영리 단체 커먼 크롤(Common Crawl)의 데이터베이스에서 가져온 2016년에서 2019년 사이의 웹 아카이브에 해당합니다. 이때 초기 데이터 45테라바이트는 다른 기계 학습 모델로 필터링됐습니다. 인터넷에는 수많은 정크 텍스트가 있기에 그 중에서 고품질 텍스트만을 선별하기 위해서였죠. 또한 GPT-4는 알려지지 않은 다량의 이미지(수 테라바이트 정도로 추정)로도 교육을 받았습니다. 2010년대에 이미지 처리 분야에 혁명을 불러왔던 신경망 알렉스넷(AlexNet)이 126기가바이트 분량의 레이블링된 이미지 120만 개로 훈련받았다는 것을 생각해 보면 그 규모가 엄청나다는 것을 알 수 있습니다.

LLM은 훈련 과정에서 주어진 텍스트를 보고 스스로 질문을 만들어냅니다. 텍스트 한 덩어리를 뽑고, 마지막 몇 단어를 가린 뒤 거기에 무엇이 들어갈지 추측하는 식이죠. 이후 이 추측을 정답과 비교합니다. 데이터 자체에 이미 답이 존재하기 때문에 LLM은 인간 라벨러를 필요로 하지 않습니다. 이러한 훈련 과정은 “자체 감독(self-supervised)” 방식이라 불립니다.

모델은 “오류를 최대한 줄이고, 최대한 정확한 추측을 하는” 것을 목표로 합니다. 하지만 여기서 오류의 형태는 다양하죠. 만약 원본 텍스트가 “I ate ice cream”이라면 “I ate ice latte”라는 추측을 내놓은 경우가 “I ate ice is”라는 추측을 한 경우보다 높은 점수를 받습니다. 모델의 추측이 얼마나 나쁜지는 “손실”이라는 값으로 수치화됩니다. 이 손실은 몇 번의 추측 후 신경망으로 재전송되고, 더 나은 답변을 생성하는 방향으로 가중치를 조정하는 데 이용됩니다.

[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (3)으로 이어집니다.

Similar Posts