[해외DS] 메타의 생성 AI 도전기 (1): 메타 새 언어 모델 라마, 오픈AI GPT-3 능가

메타 AI, 사양 더 낮아도 돌릴 수 있는 더 작은 언어 모델 라마 발표 라마, 연구 목적으로 특정 케이스에 대한 언어 모델 테스트 가능 라틴어/키릴 문자 사용하는 언어 20종류로 훈련돼

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=AI Business

지난해 말 오픈AI가 챗GPT를 발표하며 대형 언어 모델 경쟁이 시작됐습니다. 이후 바드(Bard)를 앞세운 구글 등 몇몇 IT 기업이 여기에 참전했습니다.

AI Business에 따르면 최근 또다른 IT 공룡 메타(Meta; 페이스북 모회사)가 새로운 모델 라마(LLaMA; Large Language Model Meta AI)를 출시, 대형 언어 모델 시장에 도전장을 던졌습니다. 단 라마는 챗GPT나 바드와 달리 연구 목적으로만 이용할 수 있다고 합니다.

라마는 현재 출시된 다른 대형 언어 모델보다 규모가 작습니다. 인프라가 부족한 연구 커뮤니티를 위해 만들어졌기 때문입니다. 7B, 13B, 33B, 65B 총 4종류의 하위 모델이 있는데, 이들은 최소 약 70억개에서 최대 약 650억개의 파라미터로 이루어져 있습니다.

하지만 작은 고추가 맵다고 하죠, 성능은 비슷하거나 오히려 더 나은 수준입니다. 메타의 논문에 따르면 벤치마크 결과, 라마-13B은 대부분의 경우에서 오픈AI의 GPT-3보다 우수한 성능을 발휘했습니다. GPT-3이 무려 1,620억개의 파라미터로 구성돼 있음에도 불구하고 말입니다.

또한 가장 큰 모델인 라마-65B의 경우 딥마인드(DeepMind)의 친칠라(Chinchila) 70B나 구글의 PaLM-540B(바드의 기본 모델 LaMDA 훈련에 이용된 모델) 같은 더 큰 모델과 비슷한 성능을 가지고 있습니다.

라마는 맞춤화에 탁월한 기본 모델(foundational model)입니다. 레이블 지정이 안 된 대량의 데이터 셋으로 훈련을 받았기 때문에 연구를 할 때 특정한 작업에 적합하도록 미세 조정(fine-tune)하기가 더 쉽습니다. 또 크기가 작기 때문에 특정한 케이스에 맞게 재교육하는 것도 용이합니다.

아울러 라마는 영어 텍스트뿐 아니라 라틴어나 키릴 문자를 쓰는 언어 20종류로 만들어진 텍스트로도 훈련을 받았습니다. 이 역시 라마의 성능이 다른 모델보다 나은 이유인데, 다른 모델의 학습 데이터는 대부분 영어로만 되어 있습니다.

연구를 위해서는 모델이 작을수록 좋다

메타 연구원들에 따르면 현재 나와 있는 대형 언어 모델은 크기가 너무 커서 접근성이 떨어지는 측면이 있습니다.

메타는 “이러한 제한된 접근은 대형 언어 모델의 작동 방식과 작동 원리를 이해할 수 있는 연구원의 능력을 제한합니다. 그 결과 대형 언어 모델을 더 견고하게 만들고, 편향·독성·거짓 정보 생성 가능성 같은, 모두가 알고 있는 대형 언어 모델의 문제점을 해결하려는 움직임도 방해받게 되죠.”라고 주장했습니다. 즉 메타는 접근성을 개선하기 위해 라마를 다른 모델보다 작게 만든 겁니다.

또한 메타는 라마를 비상업적 라이선스로 배포, 접근성을 한층 더 높일 예정입니다. 라마 액세스 권한은 정부나 시민 단체, 학계에 속한 학술 연구원에게만 개별적으로 부여됩니다. 바로 여기에서 라마 액세스를 신청할 수 있습니다.

그렇지만 라마 역시 챗GPT나 다른 대형 언어 모델이 겪고 있는, 악성 댓글 생성이나 이상한 응답을 내놓는 문제를 피해가지 못했습니다. 메타는 라마를 발표하면서 “(모델 공유를 통해 연구원들은) 대형 언어 모델의 이러한 문제를 제한하거나 없애는 새로운 접근 방식을 더 쉽게 테스트”할 수 있을 것이라고 언급, 동일한 문제가 있다는 사실을 인정했습니다.

아울러 메타 연구팀은 모델의 한계를 밝히며 관련된 후속 연구를 위한 자료(모델의 편향성 및 유해성에 대한 벤치마크 결과)를 공유했습니다.

이번에 발표된 라마는 메타의 최신 언어 모델입니다. 한편 메타는 지난 5월 GPT-3과 비슷한 크기의 대형 언어 모델 OPT-175B를 출시하기도 했는데, OPT는 시짓기나 코드 작성 같은, 챗GPT가 할 수 있는 일들을 비롯한 NLP 작업을 수행할 수 있습니다.


After OpenAI threw down the large language model gauntlet with ChatGPT, rivals have scrambled to catch up. Google has Bard. And now Meta has thrown its hat in the ring, with the unveiling of a new model, LLaMA, although it is only open to researchers.

The model, an acronym for Large Language Model Meta AI, is smaller in size than its contemporaries, as it is built for research communities that do not have access to large amounts of infrastructure. LLaMA is available in various sizes, ranging from seven billion parameters up to 65 billion parameters.

Despite its smaller size, however, LLaMA-13B outperforms OpenAI’s GPT-3 “on most benchmarks” despite being 162 billion parameters less, according to Meta’s paper outlining the models.

The largest model, LLaMA-65B, is reportedly “competitive” with models like DeepMind’s Chinchilla70B and PaLM-540B, the Google model used to train LaMDA, the underlying model for Bard.

LLaMA is a foundational model: It is trained on a large set of unlabeled data, which makes it easier for research to fine-tune the model for a specific task. And since the models are smaller, they are easier to retrain for use cases.

And LLaMA was not just built using solely English text. Meta trained its model using 20 languages that use Latin or Cyrillic scripts. However, most of the training data is in English so model performance for it is better.

Smaller is better – for researchers

Meta’s researchers claim that access to current large language models is limited because of the size of the models.

“This restricted access has limited researchers’ ability to understand how and why these large language models work, hindering progress on efforts to improve their robustness and mitigate known issues, such as bias, toxicity, and the potential for generating misinformation,” Meta argues.

As well as making the models smaller, Meta’s attempt to make LLaMA more accessible includes releasing it under a non-commercial license.

Access to the various LLaMA models will only be granted to academic researchers on a case-by-case basis such as those affiliated with governments, civil organizations and academia. To apply for access to LLaMA, head here.

Like ChatGPT and others, LLaMA shares the issues other language models have of generative toxic comments and weird responses. Meta’s announcement of LLaMA acknowledges this, saying that by sharing the model, researchers can “more easily test new approaches to limiting or eliminating these problems in large language models.”

Meta’s research team also published a set of evaluations on benchmarks evaluating model biases and toxicity to show the model’s limitations and to support further research in this crucial area.

LLaMA is Meta’s latest language model. Last May, the Facebook parent released OPT-175B, a large language model on par in size with GPT-3. OPT can perform NLP use cases including generating poetry and writing code, use cases for which ChatGPT and others have been touted.

Similar Posts