[해외DS] 당신이 알아야 할 언어 모델 Top 7 (2)

멀티태스킹 위한 범용 시스템 가토, 세계 최대 언어 모델 우다오 2.0 현존 최대 모놀리식 변환기 언어 모델 MT-NLG, 엔비디아 셀린으로 훈련돼 AI 엔지니어까지 의심하게 만든 정교한 언어 모델 람다

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=AI 비즈니스

[해외DS] 당신이 알아야 할 언어 모델 Top 7 (1)에서 이어집니다.

4. 가토(Gato)

제작사: 딥마인드

파라미터 수: 7,900만, 3억 6,400만 및 11억 8,000만개

AI 비즈니스에 따르면 가토는 여기서 언급된 7가지 모델 중 가장 중요합니다. 가토가 멀티태스킹을 위해 설계된 “범용”시스템이기 때문이라네요. 가토는 다양한 크기로 개발됐는데, 일반적인 AI 시스템이 하나 혹은 두 가지 작업에 특화되는 것과 달리 다양한 작업을 수행할 수 있습니다.

가토라는 이름 역시 ‘A General Agent’의 줄임말입니다. 가토는 비디오 게임인 아타리(Atari), 캡션 이미지, 채팅, 실제 로봇 팔로 블록 쌓기 등을 할 수 있으며 컨텍스트를 보고 텍스트, 조인트 토크(joint torques), 버튼 누르기 등 다양한 토큰 중 어떤 것을 출력할지 결정합니다.

가토의 작동 방식은 “Technobabble incoming”으로 요약할 수 있습니다. 참고로 Technobabble은 일반인이 이해하기 어려운 컴퓨터 및 최신 과학 기술 용어를 뜻하는 단어입니다.

이 모델은 다양한 작업과 양상(modality)에 관련된 데이터로 훈련을 받았습니다. 이 데이터는 플랫 토큰 시퀀스 방식으로 직렬화된 뒤 대형 언어 모델과 비슷한 변환기 신경망(transformer neural network)으로 일괄 처리(batched and processed)되었습니다. 프롬프트는 배포 시에 토큰화되어 초기 시퀀스를 형성합니다. 환경(environment)은 첫 번째 관찰(first observation)을 생성하고, 이는 다시 토큰화되어 시퀀스에 추가됩니다. 이후 가토는 한 번에 한 토큰씩 작업 벡터(action vector)를 자동 회귀 방식으로 샘플링합니다.

이렇게 작업 벡터(action vector)를 구성하는 모든 토큰이 샘플링되면 작업 벡터는 디코딩되어 환경으로 전송, 새로운 관찰을 진행하고 그 결과값을 산출합니다. 이후 이러한 절차는 반복됩니다. 딥마인드의 연구원들은 이 모델이 “토큰 1,024개로 이뤄진 컨텍스트 창 안에서 이전의 모든 관찰과 행동을 항상 본다”고 말했습니다.

정말 Technobabble하네요. 자세한 내용은 딥마인드의 논문을 통해 확인하실 수 있습니다.

그렇다면 과연 가토는 일반 인공 지능(artifical general intelligence)에 한 걸음 더 다가갔을까요?

가토가 AI 세계에 미친 영향력은 조금 심오할 수 있습니다. 적어도 딥마인드는 그렇게 되기를 원하죠.

이 모델은 시뮬레이션 환경과 실제 환경의 데이터로 구성된 상당한 규모의 데이터 셋에 기반해 구축됐습니다. 여기에는 다양한 자연어 및 이미지 데이터 셋도 포함됩니다.

하지만 많은 작업을 수행할 수 있다는 것이 그 모든 작업을 잘 한다는 뜻은 아닙니다. 일례로 논문에 따르면 가토는 대화를 생성할 때 “종종 피상적이거나 사실적으로 잘못된” 응답을 하는 경향을 보입니다.

아울러 가토는 메모리 제약 문제도 갖고 있는데요, 이는 원하는 행동의 시연처럼 프롬프트에 대한 ‘조건화’를 통해 새로운 작업에 적응하는 학습을 할 때 큰 문제가 됩니다. 하지만 가토가 여기서 소개된 다른 모델과 비교했을 때 일반 인공 지능의 광범위한 개념에 한 발짝 더 다가간 존재라는 것은 부정할 수 없습니다.

5. 우다오 2.0(WuDao 2.0)

제작사: 베이징 인공 지능 아카데미(BAAI, Beijing Academy of Artificial Intelligence)

파라미터 수: 1조 7,500억개

우다오는 여기서 소개된 모델 중에서뿐 아니라 세계에서 가장 큰 모델입니다. 대화 음성을 시뮬레이션하고, 시를 쓰고, 이미지를 이해할 수 있죠.

우다오의 첫 번째 버전은 2021년 1월에 출시됐는데, 그로부터 불과 몇 달 뒤인 5월에 우다오 2.0이 공개됐습니다.

우다오 2.0은 GPT-3과 비슷한 아키텍처를 갖고 있지만 파라미터 수에 있어서는 GPT-3을 압도합니다. 무려 1조 7,500개로, GPT-3의 10배 수준이죠. 기존 기록은 지난 1월 구글이 발표한 스위치 트랜스포머(Switch Transformer)의 1조 6,000억 개였는데, 4개월 만에 이를 갈아치운 겁니다.

우다오는 중국어 텍스트 1.2테라바이트와 영어 텍스트 1.2테라바이트를 비롯해 총 4.9테라바이트의 이미지 및 텍스트로 교육을 받았습니다. 하지만 언어 모델의 크기가 항상 품질과 연관되는 건 아니라는 점을 잊어서는 안 됩니다. 우다오는 모놀리식 변환기(monolithic transformer)이 아니기 때문에 ‘사과 간(apples-to-apples)’ 비교를 보장하지 않습니다. 즉 같은 것은 같은 것끼리, 다른 것은 다른 것끼리 비교해야 의미가 있는데 우다오로는 그렇게 하지 못할 수도 있다는 뜻입니다.

한편 이 모델의 교육에 이용된 데이터 셋이 정확히 어떻게 구성됐는지, 베이징 인공 지능 아카데미가 이 모델을 앞으로 어떻게 활용할 것인지에 대해서는 알려진 바가 거의 없습니다. 그렇지만 한 가지는 확실한데요, 우다오는 ESM폴드나 알파폴드처럼 단백질의 3차원 구조를 예측할 수 있습니다.

6. MT-LNG

제작사: 엔비디아(Nvidia), 마이크로소프트

파라미터 수: 5,300억개

MT-NLG(Megatron-Turing Natural Language Generation)은 현존 최대의 모놀리식 변환기 기반 언어 모델입니다. 자연어 추론 및 독해 등 다양한 자연어 작업을 수행할 수 있죠.

이 모델은 마이크로소프트의 튜링(Turing) NLG 17B와 엔비디아의 메가트론-LM(Megatron-LM) 두 언어 모델의 후속작으로, 문장을 자동으로 완성하거나 상식적 추론(commonsense reasoning)의 내용을 읽고 추론할 수 있습니다.

MT-NLG는 영어로 된 웹사이트에서 수집한 15개의 데이터 셋으로 훈련받았습니다. 여기에는 총 3,390억개의 토큰이 포함됐죠. 각각 8개의 A100 80GB GPU가 포함된 560개의 DGX 서버를 갖고 있는 엔비디아의 ML 슈퍼컴퓨터 셀린(Selene)이 모델 교육에 활용됐습니다.

MT-NLG은 고품질의 광범위한 언어 작업을 수행할 수 있습니다. 모델을 이용 중인 기업들은 MT-NLG가 “미래의 제품을 형성하고 업계가 자연어 처리의 경계를 더욱 확장하도록 동기를 부여”할 수 있는 잠재력을 가지고 있다는 평가를 내렸습니다.

7. 람다(LaMDA)

제작사: 구글

파라미터 수: 1,370억개

구글의 람다(Language Model for Dialogue Applications)는 굉장히 정확합니다. AI 엔지니어가 람다에 자아가 있다고 확신했을 정도죠(물론 착각입니다).

엔지니어가 람다를 두려워하지만 않는다면, 람다는 전통적인 언어 모델이 자주 채택하는 작업 기반 응답(task-based responses) 방식보다 자유로운 형식으로 대화를 생성할 수 있습니다.

이는 람다가 대화에 대한 교육을 받았기 때문입니다. 구글에 따르면 람다는 대화 기반(dialogue-based) 접근 방식을 통해 개방형(open-ended) 대화의 뉘앙스를 파악, 다른 형태의 언어와 구별합니다.

람다는 2021년 5월 구글의 I/O 행사에서 첫 선을 보인 바 있습니다. 구글은 향후 검색 엔진, 구글 어시스턴트 및 구글 워크스페이스 플랫폼 등 자사의 다양한 제품에 람다를 활용할 예정입니다.

한편 구글은 2022년 I/O 행사에서 람다 2 출시 소식을 전하며 람다의 기능을 확장한다고 발표했습니다. 이 최신 버전은 기존보다 더 정교하게 조정됐고, 사용자 쿼리에 기반해 권장 사항을 제공할 수 있는데, 모델 훈련 과정에는 파라미터 5,400억개로 구성된 구글의 PaLM(Pathways Language Model)이 활용됐다고 합니다.


4. Gato

Developers: DeepMind

Parameters: 79 million, 364 million and 1.18 billion

Arguably one of the most important models on this list is Gato is a “general purpose” system designed to take on several different tasks. Developed across a handful of different sizes, this model differs from others on this list as it can undertake a handful of different tasks. Traditionally, most AI systems are taught one or two responsibilities.

Short for ‘a General Agent,’ Gato can play Atari, caption images, chat, stack blocks with a real robot arm and more. The system can decide whether to output text, joint torques, button presses, or other tokens based on context.

How Gato works: Technobabble incoming

The model was trained on data covering different tasks and modalities. This data was serialized into a flat sequence of tokens which was then batched and processed by a transformer neural network similar to a large language model. Upon deployment, a prompt is tokenized, which forms an initial sequence. The environment yields the first observation – which again, is tokenized and appended to the sequence. Gato then samples the action vector autoregressively, one token at a time.

Once all tokens comprising the action vector have been sampled, the action is decoded and sent to the environment, which steps and yields a new observation. Then the procedure repeats. DeepMind’s researchers suggest the model “always sees all previous observations and actions within its context window of 1024 tokens.”

For a full explanation, check out DeepMind’s paper.

A step towards artificial general intelligence?

Gato’s impact on the AI world could be profound. At least, that is what DeepMind likely is hoping for.

The model was built on a sizable dataset comprising data from both simulated and real-world environments. It was also built using several natural language and image datasets.

But while it can perform a lot of tasks, it does not necessarily do them all well. For example, when generating dialogue, the model tends to generate “often superficial or factually incorrect” responses, according to the paper.

The model also struggles with memory constraints, much to the detriment of learning to adapt to a new task via conditioning on a prompt, like demonstrations of desired behavior. But while there are kinks to iron out, Gato is certainly a step closer to the far-flung concept of general intelligence compared to other models on this list.

5. WuDao 2.0

Developers: Beijing Academy of Artificial Intelligence

Parameters: 1.75 trillion parameters

The biggest model on this list and in the world, WuDao can simulate conversational speech, write poems and understand images.

The first iteration of Wu Dao was showcased in January 2021, with WuDao 2.0 unveiled just a few months later in May.

The model is comparable with GPT-3 in terms of having similar architectures. But WuDao blows GPT-3 out of the water with its size ­— a whopping 1.75 trillion parameters, making it the world’s largest language model. Comparatively, Google’s Switch Transformer, announced last January, featured 1.6 trillion parameters.

WuDao was trained on 4.9 terabytes of images and texts – including 1.2 terabytes of Chinese text and 1.2 terabytes of English text. It is important to note that the size of a language model often does not correlate to quality – and because WuDao is not a monolithic transformer model, it prevents a meaningful ‘apples-to-apples’ comparison.

Little is known though about exactly what made up the datasets used to train the latest version – nor what applications the Beijing AI Academy intends to use the model for. One task WuDao can reportedly conduct however is predicting the 3D structures of proteins – similar to ESMFold and AlphaFold – without being trained to solely conduct such tasks.

6. MT-NLG

Developer: Nvidia, Microsoft

Parameters: 530 billion

Megatron-Turing Natural Language Generation, or MT-NLG, is the largest monolithic transformer-based language model. It can perform several natural language tasks, including natural language inferences and reading comprehension.

The successor to Microsoft’s Turing NLG 17B and Nvidia’s Megatron-LM language models, MT-NLG can auto-complete sentences, and read and deduct commonsense reasoning.

The model was trained on 15 datasets consisting of a total of 339 billion tokens from English-language websites. This was later whittled down to 270 billion tokens. Nvidia’s Selene ML supercomputer was used to train the model, which is comprised of 560 DGX A100 servers, each containing eight A100 80GB GPUs.

The model can perform a broad set of language tasks of high quality, with the partner companies suggesting MT-NLG has the potential to “shape tomorrow’s products and motivate the community to push the boundaries of natural language processing even further.”

7. LaMDA

Developer: Google

Parameters: 137 billion

Google’s LaMDA (Language Model for Dialogue Applications) model is so accurate that it purportedly convinced an AI engineer it was sentient.

When it is not scaring engineers, the model can generate conversational dialogue in a free-form way – compared to task-based responses traditional models often come up with.

This is because LaMDA was trained on dialogue. According to Google, its dialogue-based approach allowed the model to pick up on the nuances that distinguished open-ended conversation from other forms of language.

First showcased at the company’s I/O event in May 2021, Google plans on using the model across its products – including its search engine, Google Assistant and Workspace platform.

And at its 2022 I/O event, the company announced expansions to the model’s capabilities via LaMDA 2. The latest version is reportedly more finely tuned than the original − and can now provide recommendations based on user queries. LaMDA2 was trained on Google’s Pathways Language Model (PaLM), which has 540 billion parameters.

Similar Posts