[해외DS] 중국, GPT-3 능가한다고 ‘주장하는’ AI 언어 모델 공개

칭화대 연구팀, 경쟁 모델보다 작지만 성능은 더 좋은 언어 모델 GLM-130B 공개 이중 언어 모델 개발 및 단일 서버 구동 목표, 자동 회귀 블랭킹 인필링 기법 활용해 GLM-130B, MMLU 벤치마크에서 GPT-3보다 좋은 단기 학습 성능 보여

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=AI 비즈니스

중국 베이징에 있는 칭화대학교의 연구원들이 새로운 AI 언어 모델 GLM-130B를 공개했습니다. 연구원들은 이 모델이 오픈AI의 GPT-3, 메타(Meta)의 OPT-175B 그리고 빅사이언스(BigScience)의 블룸(Bloom) 같은 다른 언어 모델보다 작지만, 성능은 훨씬 뛰어나다고 주장했습니다.

GLM-130B는 1,300억개의 파라미터로 구성돼 있지만 GPT-3과 OPT-175B, 블룸은 각각 약 1,750억개의 파라미터를 가지고 있습니다. 또한 GLM-130B는 영어와 중국어를 모두 지원하는데, GPT-3과 블룸은 다국어임에도 불구하고 중국어를 지원하지 않습니다.

칭화대학교 연구원들은 GPT-3이 이 분야의 “선구자”인 건 맞지만 “세계 대부분의 사람들이 사용할 수 없다”고 지적했습니다. 이들은 논문에서 이 프로젝트의 목표가 “전 세계 모든 사람에게 공개되어 누구나 어디서든 다운로드할 수 있는” 이중 언어(bilingual language) 모델을 만드는 것, 그리고 그 모델을 적합한 GPU가 존재하는 단일 서버에서 사용하는 것이라고 전했습니다.

GLM-130B는 4,000억개 이상의 텍스트 토큰(영어와 중국어 각 2,000억개)으로 훈련됐습니다. 하지만 이 데이터는 웹 크롤링 데이터, 즉 웹 페이지에서 데이터를 추출하는 크롤링 작업으로 얻은 데이터입니다. GLM-130B 역시 OPT-175B에 기반한 메타의 AI 챗봇 블렌더봇3(BlenderBot3)처럼 잠재적으로 유해하거나 공격적인 콘텐츠를 생성할 수 있다는 뜻입니다.

또한 GLM-130B은 자동 회귀 블랭킹 인필링(autoregressive blanking infilling) 기법을 활용합니다. 기본적으로 문장 하나에서 무작위로 대량의 연속 범위를 취해 자동 회귀 방식으로 예측하는 기법인데, 아래의 예시를 통해 모델이 밥 딜런(Bob Dylan)의 명곡 ‘Like a Rolling Stone’의 가사에서 ‘complete unknown’ 부분이 가려진 문장을 보고 그 부분을 예측하는 과정을 확인할 수 있습니다.

사진=AI 비즈니스

연구원들은 GLM-130B가 대규모 다중 작업 언어 이해(MMLU, Massive Multi-Task Language Understanding) 벤치마크 결과 단기 학습에서 GPT-3보다 뛰어난 성능을 보였다고 밝혔습니다. 개방성도 더 뛰어나다고 합니다.

아울러 높은 정확도라는 측면에서 살펴보면 GLM-130B는 딥러닝용 제로샷 LAMBADA 테스트(zero-shot LAMBADA test)에서 제로샷 성능 정확도 80.2%를 기록했습니다. 하지만 GPT-3과 블룸, OPT-175B는 각각 76.2%, 67.2%, 74.7%를 기록, GLM-130B를 뛰어넘지 못했습니다.

현재 마이크로소프트는 GPT-3 이용에 대한 독점 라이선스를 보유하고 있습니다. 따라서 개발자는 GPT-3의 API에 액세스하기 위해 별도의 등록 절차를 밟아야 합니다. 하지만 중국을 포함한 특정한 국가를 지원하지 않는데다 영어만 지원하기 때문에 지리적/언어적 장벽이 존재합니다. 칭화대학교 연구팀은 바로 이 문제를 해결하고자 했던 겁니다.

연구팀은 모델 교육에 2개월이 소요됐다면서 그 기간 동안 엔비디아의 GPU V100으로 구동되는 단일 서버에서 GLM-130B를 실행, 추론 작업을 수행하는 프로그램도 개발했다고 밝혔습니다. 이 프로그램은 향후 지포스 RTX-3090 서버에서도 실행할 수 있게 확장될 예정입니다.

GLM-130B는 깃헙(Github) 및 허깅페이스(HuggingFace)를 통해 액세스할 수 있습니다. 연구팀은 사전 훈련 및 미세 조정에 쓸 수 있는 코드와 작업을 설명하는 연구 논문을 모두 공개할 계획입니다.

한편 GLM-130B 사용자는 “증오, 괴롭힘, 폭력, 성인, 정치, 속임수를 포함한 유해한 콘텐츠를 고의로 생성하거나 타인이 고의로 생성하도록 허용”해서는 안 됩니다.

크다고 다 좋을까?

GLM-130B는 칭화대학교 인공지능팀의 두 번째 인공 지능 모델입니다.

첫 번째는 지난해 베이징쯔위엔인공지능연구원(BAAI, Beijing Academy of Artificial Intelligence)과 함께 개발한 AI 모델 우다오 2.0(WuDao 2.0)인데, 무려 1조 7,500억개의 파라미터로 이루어져 있습니다. 세계 최대 규모의 언어 모델이죠.

특히 우다오 2.0는 ESM폴드(ESMFold)나 알파폴드(AlphaFold)처럼 단백질의 3차원 구조를 예측할 수 있다고 알려졌습니다. 하지만 우다오 2.0은 모놀리식 변환기 모델이 아니기 때문에 변수를 제대로, 유의미하게 비교하지 못합니다. 다시 말해서, 언어 모델의 크기와 품질 간의 상관관계는 언제나 성립하는 게 아닙니다.


Researchers from China’s Tsinghua University unveiled a new AI language model that they said outperforms much larger models such as OpenAI’s GPT-3, Meta’s OPT-175B and Bloom.

The model, dubbed GLM-130B, has 130 billion parameters and supports both English and Chinese. In comparison, GPT-3, OPT-175B and Bloom each have around 175 billion parameters; GPT-3 and Bloom are multilingual but does not support Chinese.

The researchers said that while GPT-3 is the “pioneer” in this field, “it is not available to most people in the world.” The goal of their project was to create a bilingual language model that is “open to everyone in the world – anyone, anywhere can download it” and use it on a single server with the right GPUs, they wrote in a paper.

Notably, the Chinese model was trained using web-crawled data, meaning it could generate potentially harmful or offensive content, similar to Meta’s BlenderBot3.

GLM-130B has been trained on over 400 billion text tokens (200 billion each for Chinese and English).

The model utilizes autoregressive blanking infilling: Essentially, it takes a sentence, mass random continuous spans and predicts them autoregressively. The example below shows the model predicted lyrics from Bob Dylan’s Like a Rolling Stone, with the lyric ‘complete unknown’ masked.

According to the minds behind the model, GLM outperforms GPT-3 in few-short learning when using the Massive Multi-Task Language Understanding (MMLU) benchmark. It also is more open.

Microsoft holds an exclusive license to use GPT-3, with developers required to sign up to access its API. Geographic restrictions apply as certain countries are not supported (a full list can be found here), as well as a language barrier as it only supports English, something the team from Tsinghua sought to change.

As for high accuracy, the Chinese-made model achieved a zero-shot performance accuracy of 80.2% on the zero-shot LAMBADA test for deep learning, while GPT-3, Bloom and OPT could only manage 76.2%, 67.2% and 74.7%, respectively.

It took the team from Tsinghua two months to train the model, during which they also developed a program to perform inference tasks using GLM on only a single server powered by Nvidia V100 GPUs. The research team said they plan to scale the model’s inference ability to run on an RTX-3090 server.

GLM-130B can be accessed via Github and HuggingFace. The researchers plan to release both the code for pre-training and fine-tuning, as well as a research paper explaining their work.

GLM users are prohibited from “knowingly generating or allowing others to knowingly generate harmful content, including hateful, harassment, violence, adult, political, deception,” the model’s rules read.

Bigger not always better

GLM-130B is the second AI model created by Tsinghua University’s AI team.

Alongside the Beijing Academy of Artificial Intelligence, Tsinghua’s researchers made WuDao 2.0, an AI model with a whopping 1.75 trillion parameters, making it the world’s largest language model.

The mammoth model can reportedly predict the 3D structures of proteins – similar to ESMFold and AlphaFold, among other tasks. However, it’s important to note that the size of a language model often does not correlate to quality – and because WuDao is not a monolithic transformer model, it prevents a meaningful ‘apples-to-apples’ comparison.

 

Similar Posts