[해외DS] 대형 언어 모델에서 발생하는 현상은 어떤 특징을 지닐까? (2)

창발 프롬프팅 전략, 작은 모델에는 적용 불가능하지만 충분히 큰 모델에는 적용되는 프롬프팅 전략 구글 연구원들, 대형 언어 모델에서의 사고 사슬 프롬프팅 효과 GSM8K로 확인 NLP는 꾸준히 성장 중, 창발 언어 모델의 습성 분석하고 이해하는 작업 굉장히 중요하다

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Google Research

[해외DS] 대형 언어 모델에서 발생하는 현상은 어떤 특징을 지닐까? (1)에서 이어집니다.

창발 프롬프팅(Emergent Prompting) 전략

창발 능력에 대한 두 번째 논의에서는 언어 모델의 능력을 강화하는 촉진 전략, 즉 창발 프롬프팅 전략을 다룹니다. 프롬프팅 전략은 다양한 작업에 적용할 수 있는 프롬프팅에 대한 광범위한 패러다임을 뜻합니다. 작은 모델에는 적용할 수 없고 충분히 큰 모델에서만 적용되는 프롬프팅 전략이라면 창발 프롬프팅으로 분류됩니다.

창발 프롬프팅 전략의 예시로는 ‘사고 사슬 프롬프팅(chain-of-thought-prompting)’을 들 수 있습니다. 이 전략은 최종 답변을 내놓기 전 일련의 중간 단계를 생성하도록 프롬프트된 모델에 적용됩니다. 사고 사슬 프롬프팅이 적용된 언어 모델은 다단계 수학 문제처럼 복잡한 추론이 필요한 작업을 수행할 수 있습니다. 특히, 모델은 ‘그렇게 하도록’ 명시적으로 훈련받지 않고도 일련의 생각을 추론할 수 있는 능력을 갖습니다. 아래 그림은 사고 사슬 프롬프팅의 예시입니다.

충분히 큰 모델이라면 사고 사슬 프롬프팅을 통해 다단계 추론 문제를 해결할 수 있습니다./사진=Google Blog

사고 사슬 프롬프팅의 실증적 결과는 다음과 같습니다. 우리는 수학 단어 문제의 도전적 벤치마크인 GSM8K로 실험을 진행했는데, 사고 사슬 프롬프팅은 상대적으로 작은 모델에 적용된 경우 표준 프롬프팅보다 나은 결과를 내지 못했습니다. 하지만 대형 모델(10^24 FLOPs)에서는 달랐습니다. 대형 모델은 사고 사슬 프롬프팅이 적용됐을 때 GSM8K 해결률(solve rate) 57%를 기록, 성능이 대폭 향상됐습니다.

사고 사슬 프롬프팅은 창발 능력에 해당합니다. 작은 언어 모델의 성능은 향상시키지 못하지만 큰 모델의 성능을 크게 향상시키기 때문입니다. 여기서 우리는 두 가지 언어 모델, 즉 LaMDA와 PaLM을 대상으로 상이한 모델 규모에서 나타나는 표준 프롬프팅과 사고 사슬 프롬프팅의 차이를 설명합니다./사진=Google Blog

창발 능력, 어떤 의미인가

창발 능력의 존재는 다양한 의미를 갖습니다. 예를 들어, 사전 훈련에서는 ‘창발적인’ 퓨샷 프롬프트 능력이나 전략이 명시적으로 표현되지 않습니다. 따라서 연구자는 현재 언어 모델이 지닌 퓨샷 프롬프트 능력의 전체 범위를 알지 못할 수 있습니다. 뿐만 아니라 모델 규모 함수 형태의 새로운 능력이 창발하는 상황은 보다 큰 규모의 모델에 잠재적으로 새로운 능력이 부여될 가능성과 관련된 질문을 제기합니다.

대형 언어 모델의 창발 능력을 식별하는 작업은 그 현상 자체와 미래의 모델 능력에 대한 잠재적인 영향력을 이해하기 위한 첫 번째 관문입니다. 규모가 커지면 창발 능력이 ‘잠금 해제’되는 이유가 무엇인지는 의문입니다. 컴퓨팅 자원은 비쌉니다. 그렇기 때문에 확장성을 높이지 않고 다른 방법(얘: 보다 개선된 아키텍처 모델 혹은 훈련 기술)을 이용해도 이러한 창발 능력을 잠금 해제할 수 있을지도 관건입니다. 특정한 창발 능력이 나타날 때 언어 모델의 새로운 응용 프로그램이 실현될 수 있을지를 밝혀내는 것도 중요합니다. NLP 분야는 지속적으로 성장 중입니다. 따라서 규모가 커지면서 발생하는 창발 습성을 비롯한 언어 모델의 ‘습성’을 분석하고 이해하는 작업은 중요한 연구 과제입니다.


Emergent Prompting Strategies

The second class of emergent abilities encompasses prompting strategies that augment the capabilities of language models. Prompting strategies are broad paradigms for prompting that can be applied to a range of different tasks. They are considered emergent when they fail for small models and can only be used by a sufficiently-large model.

One example of an emergent prompting strategy is called “chain-of-thought prompting”, for which the model is prompted to generate a series of intermediate steps before giving the final answer. Chain-of-thought prompting enables language models to perform tasks requiring complex reasoning, such as a multi-step math word problem. Notably, models acquire the ability to do chain-of-thought reasoning without being explicitly trained to do so. An example of chain-of-thought prompting is shown in the figure below.
The empirical results of chain-of-thought prompting are shown below. For smaller models, applying chain-of-thought prompting does not outperform standard prompting, for example, when applied to GSM8K, a challenging benchmark of math word problems. However, for large models (1024 FLOPs), chain-of-thought prompting substantially improves performance in our tests, reaching a 57% solve rate on GSM8K.

Implications of Emergent Abilities

The existence of emergent abilities has a range of implications. For example, because emergent few-shot prompted abilities and strategies are not explicitly encoded in pre-training, researchers may not know the full scope of few-shot prompted abilities of current language models. Moreover, the emergence of new abilities as a function of model scale raises the question of whether further scaling will potentially endow even larger models with new emergent abilities.

Identifying emergent abilities in large language models is a first step in understanding such phenomena and their potential impact on future model capabilities. Why does scaling unlock emergent abilities? Because computational resources are expensive, can emergent abilities be unlocked via other methods without increased scaling (e.g., better model architectures or training techniques)? Will new real-world applications of language models become unlocked when certain abilities emerge? Analyzing and understanding the behaviors of language models, including emergent behaviors that arise from scaling, is an important research question as the field of NLP continues to grow.

Similar Posts