[해외DS] 대형 언어 모델에서 발생하는 현상은 어떤 특징을 지닐까? (1)

구글 리서치 Brain Team 연구원 Wei 및 Tay, 대형 언어 모델의 창발 현상 연구 작은 모델에는 없지만 더 큰 모델에는 존재하는 능력, ‘창발 능력’ 창발 프롬프트 작업, 특정 임계값 넘어서야 성능 발휘하는 경

2
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Google Research

[Jason Wei와 Yi Tay는 구글 리서치 Brain Team 소속 연구원입니다. 아래 내용은 Jason Wei와 Yi Tay의 시점으로 작성되었습니다.]

대량의 텍스트로 훈련된 언어 모델은 자연어 처리(NLP) 분야에 혁신을 일으켰습니다. 언어 모델의 규모를 키우면 다양한 다운스트림 NLP 작업에서의 성능과 샘플 효율성이 향상되는 경우가 많습니다. 대부분의 경우에서 대형 언어 모델의 성능은 소형 모델의 성능 추세를 외삽(extrapolating)하는 방식으로 예측할 수 있습니다. 예를 들어, 한 연구에 따르면 언어 모델의 규모가 모델의 펄플렉서티(perplexity)에 주는 영향은 경험적으로 보았을 때 7자릿수 이상입니다.

반면 성능 향상 예측이 불가능한 작업도 있습니다. GPT-3 논문(OpenAI, 존스홉킨스대, 2020)이 그 예시인데, 논문에 의하면 여러 자릿수의 덧셈을 수행하는 언어 모델의 기능은 파라미터 수가 1억개에서 130억개일 때 평탄한 스케일링 곡선(사실상 무작위 성능)을 그리는데, 이때의 성능은 굉장히 뛰어납니다. 요즘 들어 NLP 연구 및 응용 프로그램에서의 언어 모델 활용 빈도가 늘어나고 있기 때문에 예상치 못하게 발생할 수 있는 이러한 능력을 보다 깊게 이해해야 할 필요가 있습니다.

최근 우리는 Transactions on Machine Learning Research(TMLR)에 게재한 “Emergent Abilities of Large Language Models”에서 ‘창발 능력(emergent abilities)’을 ‘작은 모델에는 없지만 더 큰 모델에는 존재하는 능력’으로 정의하고 관련된 현상을 논의했습니다. 보다 구체적으로 설명하자면, 우리는 창발 능력을 연구하기 위해 언어 모델의 성능을 총 부동 소수점 연산(total floating point operations, total FLOPs)으로 구한 언어 모델 규모 함수 혹은 언어 모델 훈련에 들어간 계산량을 바탕으로 분석했습니다. 아울러 데이터셋 규모나 모델 파라미터 수와 같은 다른 변수와 이 창발 능력의 관계가 어떤 형태의 함수로 나타나는지도 분석했습니다(자세한 내용은 논문 참조). 이를 통해 우리는 언어 모델을 확장하면 발생하는 창발 능력의 예 수십 가지를 제시했습니다. 또한 창발 능력의 존재는 언어 모델의 추가적인 확장이 모델의 능력 범위를 더 넓힐 수 있는지에 대한 의문을 제기합니다.

창발 프롬프트(Emergent Prompted) 작업

우선 프롬프트 작업에서 발생할 수 있는 창발 능력에 대해 논의하겠습니다. 프롬프트 작업에서 사전 훈련된 언어 모델은 다음에 올 단어를 예측하도록 프레임된 작업에 대한 프롬프트를 제공하고, 응답을 완료하는 역할을 합니다. 언어 모델은 종종 추가적인 미세 조정 없이도 훈련 중에 경험하지 않았던 작업을 수행할 수 있습니다.

영화 리뷰 감정 분류에 대한 퓨샷(few-shot) 프롬프팅의 예. 모델은 작업의 한 가지 예(영화 리뷰를 긍정적 혹은 부정적으로 분류)를 제공받은 뒤 ‘보이지 않는 예’에 대한 작업을 수행합니다./사진=Google Blog

우리는 무작위 성능이 특정한 척도 임계값에서 무작위 이상으로, 예측할 수 없을 만큼 급증하는 프롬프트 작업을 창발이라고 부릅니다. 아래에서는 창발 효과가 있는 프롬프트 작업의 세 가지 예, 즉 다단계 산술(multi-step arithmetic), 대학 수준 시험 응시, 단어의 의도된(intended) 의미 식별 작업을 제시했습니다. 각각의 사례에서 언어 모델은 특정한 임계값 전까지는 모델 규모와 거의 관계없이 제대로 작동하지 않다가 임계값을 넘어서는 순간 성능이 급격히 향상되는 패턴을 보입니다.

다단계 산술 수행 능력(왼쪽), 대학 수준 시험에서 성과를 내는 능력(가운데), 문맥에서 단어의 진정한 의미(의도된 의미)를 식별하는 능력(오른쪽). 모두 충분히 큰 규모의 모델에서만 나타나는 현상입니다. LaMDA, GPT-3, Gopher, Chinchilla 및 PaLM 모델이 실험에 이용됐습니다./사진=Google Blog

이와 같은 작업의 성능은 충분한 규모의 모델에서만 무작위가 아닌 형태로 발휘됩니다. 예를 들어, 산술 및 다중 NLU 작업에서는 트레이닝 FLOPs가 1022 이상, 문맥의 단어와 관련된 작업에서는 트레이닝 FLOPs가 1024 이상이어야 이런 현상이 관찰됐습니다. 작업이나 모델에 따라 창발 현상이 발생하는 임계값에 차이가 있을 수는 있지만, ‘부드러운 개선(smooth improvement)’은 어떤 모델에서도 발생하지 않았습니다. 우리 논문에는 이외에도 수십 가지의 다른 창발 프롬프트 작업 사례가 실려 있습니다.

[해외DS] 대형 언어 모델에서 발생하는 현상은 어떤 특징을 지닐까? (2)로 이어집니다.


The field of natural language processing (NLP) has been revolutionized by language models trained on large amounts of text data. Scaling up the size of language models often leads to improved performance and sample efficiency on a range of downstream NLP tasks. In many cases, the performance of a large language model can be predicted by extrapolating the performance trend of smaller models. For instance, the effect of scale on language model perplexity has been empirically shown to span more than seven orders of magnitude.

On the other hand, performance for certain other tasks does not improve in a predictable fashion. For example, the GPT-3 paper showed that the ability of language models to perform multi-digit addition has a flat scaling curve (approximately random performance) for models from 100M to 13B parameters, at which point the performance jumped substantially. Given the growing use of language models in NLP research and applications, it is important to better understand abilities such as these that can arise unexpectedly.

In “Emergent Abilities of Large Language Models,” recently published in the Transactions on Machine Learning Research (TMLR), we discuss the phenomena of emergent abilities, which we define as abilities that are not present in small models but are present in larger models. More specifically, we study emergence by analyzing the performance of language models as a function of language model scale, as measured by total floating point operations (FLOPs), or how much compute was used to train the language model. However, we also explore emergence as a function of other variables, such as dataset size or number of model parameters (see the paper for full details). Overall, we present dozens of examples of emergent abilities that result from scaling up language models. The existence of such emergent abilities raises the question of whether additional scaling could potentially further expand the range of capabilities of language models.

Emergent Prompted Tasks

First we discuss emergent abilities that may arise in prompted tasks. In such tasks, a pre-trained language model is given a prompt for a task framed as next word prediction, and it performs the task by completing the response. Without any further fine-tuning, language models can often perform tasks that were not seen during training.

We call a prompted task emergent when it unpredictably surges from random performance to above-random at a specific scale threshold. Below we show three examples of prompted tasks with emergent performance: multi-step arithmetic, taking college-level exams, and identifying the intended meaning of a word. In each case, language models perform poorly with very little dependence on model size up to a threshold at which point their performance suddenly begins to excel.

Performance on these tasks only becomes non-random for models of sufficient scale — for instance, above 1022 training FLOPs for the arithmetic and multi-task NLU tasks, and above 1024 training FLOPs for the word in context tasks. Note that although the scale at which emergence occurs can be different for different tasks and models, no model showed smooth improvement in behavior on any of these tasks. Dozens of other emergent prompted tasks are listed in our paper.

Similar Posts