[해외DS] 당신이 알아야 할 언어 모델 Top 7 (1)

오픈AI의 GPT-3, 연극 대본 만들기·피싱 메일 제작·게임 등 다양한 분야 활용돼 규모 크지만 오픈 소스인 블룸, 언어 모델 접근 장벽 크게 낮췄다 단백질 3차 구조 예측하는 ESM폴드, 알파폴드 2 대응 위해 오픈 소스 공개 예정

20
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=AI 비즈니스

세상에는 참 많은 언어 모델이 있습니다. 이들은 말도 안 되게 간단한 것부터 너무나도 복잡한 것까지, 정말 다양한 작업에 활용됩니다.

최근 AI 비즈니스가 AI 업계에 가장 큰 영향을 미치는 중요한 언어 모델 Top 7을 선정했다는데요, 어떤 모델이 있는지 살펴보겠습니다.

1. GPT-3

제작사: 오픈AI

파라미터 수: 1,750억개

첫 번째로 이야기할 모델은 바로 GPT-3입니다. 언어 모델 하면 가장 먼저 생각나는, 언어 모델 세계의 슈퍼스타죠.

2020년 처음 출시된 이 모델은 딥 러닝을 사용하여 인간과 비슷한 텍스트를 생성합니다. ‘생성적 사전 훈련(generative pretraining)’ 방식으로 만들어졌기에 다음 입력이 무엇일지 예측하는 능력을 갖추고 있습니다.

GPT-3을 사용할 수 있는 독점 라이선스는 마이크로소프트가 가지고 있습니다. 지난 2019년 오픈AI에 10억 달러라는 거금을 투자한 덕분이죠. 개발자라면 공개 API 접근 권한을 받을 수 있지만, GPT-3의 기본 모델에 액세스할 수 있는 건 마이크로소프트뿐입니다.

아래에서 이야기할 일부 최신 모델과 다르게 GPT-3은 이미 수많은 적용 사례가 있습니다. 몇 가지 예를 들어 보자면 다음과 같습니다.

극작가: 영국의 한 극단은 연극 대본을 쓰기 위해 GPT-3을 활용했습니다. 이렇게 만들어진 연극 ‘AI’는 2021년 8월 런던의 극장 영 빅(Young Vic)에서 3일 동안 공연된 바 있는데요, 공연 기간 동안 작가들은 시스템에 프롬프트를 입력해 스토리를 생성했고 배우는 내러티브를 개선하기 위해 대사를 조금 고치고, 스토리의 진행을 안내하는 추가적인 프롬프트를 제공했다고 합니다.

피싱(Phishing): 좋지 않은 사례인데요, 싱가포르 정부 기술청(Government Technology Agency) 소속 연구원들은 GPT-3으로 사용자를 쥐도새도 모르게 유인할 수 있는 피싱 이메일을 만들었다고 밝혔습니다. GPT-3이 만들어낸 이메일에는 싱가포르 거주자를 위한 콘텐츠를 개발하라는 메시지와 함께 싱가포르 법률 조항이 언급되는 등 굉장히 구체적인 세부 정보가 포함됐습니다. 물론 정말로 피싱을 하려고 만든 건 아니고, 모델이 어떻게 악용될 수 있는지를 보여주기 위한 연구였다고 합니다.

던전 마스터: GPT-3은 조크(Zork; 게임 회사 인포컴(Infocom)이 1979년 처음 출시한 텍스트 기반 고난이도 어드벤처 게임) 시리즈와 유사한 텍스트 기반 어드벤처 게임인 AI 던전(AI Dungeon)에도 활용됐습니다. 이 게임에서 GPT-3은 콘텐츠를 생성해 플레이어가 자신만의 여정을 만들 수 있도록 했는데요, 때때로 플레이어가 지시하지 않았음에도 부적절한 그래픽이나 성적인 콘텐츠를 만들어내는 문제가 있었습니다. 이후 오픈AI가 GPT-3으로 부적절한 콘텐츠를 만드는 것을 금지하자 게임 개발사 측은 2021년 말 GPT-3을 다른 언어 모델로 교체했습니다.

[embedyt] https://www.youtube.com/watch?v=CFbHGtq94KA[/embedyt]

카피라이터: 영국 언론사 가디언(The Guardian) 지는 GPT-3으로 작성한 기사를 공개했습니다. 모델은 입력된 아이디어를 보고 8개의 서로 다른 에세이를 작성했고, 편집자는 이를 하나로 병합했습니다.

다른 응용 프로그램: 미국의 가상현실 콘텐츠 제작 기업 페이블 스튜디오(Fable Studios)는 GPT-3으로 VR 세계의 캐릭터를 만듭니다. 웹 검색 스타트업 알골리아(Algolia)는 자사 제품 개선에, AI 디자인 회사 크리에이티브 랩스(Create Labs)는 소셜 벤처 프로젝트 강화에 GPT-3을 이용하고 있습니다.

2. 블룸(Bloom)

제작사: 허깅페이스(Hugging Face), 빅사이언스(BigScience)

파라미터 수: 1,760억개

블룸은 여기서 소개할 최신 모델 중 하나입니다. 오픈 소스 모델로, 다국어 언어 모델을 만들기 위해 1,000명 이상의 AI 연구원이 모인 컨소시엄에서 개발했습니다.

블룸이라는 이름은 BigScience Large Open-science Open-access Multilingual Language Model의 약자입니다. 46개의 자연어 및 13개의 프로그래밍 언어로 텍스트를 생성할 수 있죠. 파라미터 1,000억개 이상인 언어 모델이 프랑스어나 아랍어 같은 언어를 지원하는 것은 이번이 처음입니다.

블룸은 로컬 시스템이나 클라우드에서 액세스 및 사용할 수 있습니다. 조만간 연구원들이 모델 교육을 위해 대형 서버에 액세스할 수 없는 경우를 위해 전용 하드웨어나 엔지니어링 없이도 대규모의 모델을 돌릴 수 있게 하는 추론 API 역시 출시될 예정입니다.

블룸에 액세스하려는 사용자는 타인에게 해를 입히기 위해 허위 정보를 생성하거나, 타인의 법적 권리를 해치는 의사 결정 자동화를 구현하는 등 몇 가지 제한된 상황에서 프로그램을 활용하지 않겠다는 라이선스에 동의해야 합니다.

앞서 언급했듯이 블룸은 오픈 소스입니다. 따라서 이제 개발자는 원래 자금이 많은 민간 기업이나 쓸 수 있었던, 상당한 규모의 언어 모델에 액세스하고 이를 활용할 수 있게 됐죠. 캠브라이언 AI(CambrianAI)의 분석가 알베르토 로메로(Alberto Romero)는 블룸이 “대형 언어 모델의 연구 및 개발에 대한 거대 기술의 교착 상태를 깨뜨릴 것”이라고 말했습니다.

3. ESM폴드(ESMFold)

제작사: 메타 AI

파라미터 수: 150억개

메타의 ESM폴드는 기사에 소개된 모델 7개 중 가장 최근에 출시된 모델로, 단백질의 단일 서열을 보고 해당 단백질의 3차원 구조를 정확히 예측할 수 있습니다. 딥마인드(Deepmind)의 알파폴드(AlphaFold)와 비슷하네요. 여기서 ESM은 Evolutionary Scale Modeling의 약자입니다.

단백질의 3차원 구조를 예측하게 되면 약물 개발 속도가 빨라집니다. 메타는 ESM폴드가 “단백질의 개별적인 서열로부터 직접적으로, 정확성 높은 종단 간 원자 수준 구조 예측”을 통해 이러한 목표를 달성할 수 있다고 밝혔습니다.

메타 연구진은 ESM폴드에 단백질 데이터를 입력해 모델이 단백질 구조를 예측할 수 있는지 확인하고자 했습니다.

ESM폴드를 다룬 연구 논문에 의하면 연구진은 ESM폴드가 알파폴드 2(AlphaFold 2)와 유사한 수준의 정확도를 보이거나 펄플렉서티(perplexity)가 낮은(성능이 더 좋다는 뜻입니다) 시퀀스를 달성한다는 것을 발견했습니다. 연구진은 “ESM폴드의 추론 속도는 알파폴드 2보다 훨씬 빠르며 (ESM폴드는) 실제 시간 척도에서 균유전체학(metagenomic; DNA 혹은 RNA 등을 유기적으로 연구하는 분야)적 단백질의 구조적 공간을 탐색할 수 있습니다.”라고 주장했습니다.

메타의 연구 엔지니어 제밍 린(Zeming Lin)에 따르면 향후 그의 연구진은 라이벌 모델인 알파폴드 2에 대응하고자 ESM폴드를 오픈 소스로 공개할 계획입니다.

참고사항: 딥마인드의 알파폴드

구글 자회사 딥마인드에서 개발한 알파폴드는 파라미터 2,100만개로 구성되어 있으며 단백질 구조 예측에 활용됩니다. 딥 러닝에 기반한 시스템으로, 모델 훈련 과정에서는 공개 저장소에 있는 단백질 서열 및 구조 데이터 170,000개 이상이 이용됐습니다. 알파폴드는 어텐션 네트워크(attention network; 알고리즘이 스스로 더 큰 문제 일부를 인식하는 딥 러닝 기술)를 사용한 다음, 이를 퍼즐 맞추듯 조립해서 전체적인 솔루션을 찾아냅니다.

[embedyt] https://www.youtube.com/watch?v=gg7WjuFs8F4[/embedyt]

알파폴드의 초기 버전은 2018년 말에 출시됐고, 두 번째 버전인 알파폴드 2는 2020년에 출시됐습니다. 알파폴드 2 출시 1년 뒤 딥마인드는 소스 코드를 추가로 공개했습니다.

[해외DS] 당신이 알아야 할 언어 모델 Top 7 (2)로 이어집니다.


There are numerous language models out there performing tasks ranging from the incredibly simple to the extremely complex.

While the model landscape can be daunting at times, AI Business is here to help by compiling a list of arguably the seven most important models with the biggest impact on the AI landscape.

1. GPT-3

Developers: OpenAI

Parameters: 175 billion

The darling of the language model world, GPT-3 uses deep learning to produce human-like text.

Initially released in 2020, this model was trained using a method called generative pretraining, essentially meaning GPT-3 was taught to predict what the next input would be.

Microsoft invested $1 billion into GPT-3’s developer, OpenAI, in 2019 and holds an exclusive license to use the model. Developers can still use the public API, but only Microsoft has access to GPT-3’s underlying model.

Unlike some of the newer models on this list, GPT-3 has been applied in a plethora of cases. Here are some examples:

Playwright: GPT-3 was used by a theatre group in the U.K. to write a play. Summer 2021 saw a production at the Young Vic theatre in London that was ‘written’ by the model. Throughout a three-day performance, writers put prompts into the system, which then generated a story. The actors would then adapt lines to improve the narrative and feed further prompts to guide the story’s progression.

Phishing: Researchers from Singapore’s Government Technology Agency used GPT-3 to generate phishing emails in a bid to attract unwitting users. The AI-generated emails included highly specific details, such as references to Singapore law, when it was prompted to develop content for residents. The study was conducted to showcase how language models could be used for nefarious purposes.

Dungeon master: GPT-3 was used in AI Dungeon, a text-based adventure game similar to Zork. The AI model generates content, allowing players to create their own custom adventures. At times, the GPT-3 version of the game would develop inappropriate graphic and sexual content despite not being prompted by players. The model was replaced in late 2021 after OpenAI changed its policy regarding generated content.

Copywriter: The Guardian used the GPT-3 model to write an article. The model was fed ideas and produced eight different essays, which editors then merged into one.

Other applications: Fable Studios uses GPT-3 to create characters for VR experiences. Web search startup Algolia taps it to improve its products. And Create Labs is making use of GPT-3 to enhance its social venture projects.

2. Bloom

Developers: Hugging Face, BigScience

Parameters: 176 billion

One of the newest models on this list, Bloom is an open source model developed by a consortium of more than 1,000 AI researchers who sought to create a multilingual language model.

BLOOM, or BigScience Large Open-science Open-access Multilingual Language Model, can generate text in 46 natural languages and 13 programming languages. It is the first time languages such as French and Arabic are represented in a language model with more than 100 billion parameters.

The model can be accessed and used on a local machine or in the cloud. And if researchers do not have access to large servers to train their models, an inference API for large-scale use without dedicated hardware or engineering is set to be released shortly.

To access BLOOM, users must agree to a license banning its application in several restricted cases, including generating false information to harm others and automating decision-making that harms someone’s legal rights.

Given BLOOM is open source, developers can now access and use a sizable language model previously reserved for private tech companies with deep pockets. According to CambrianAI analyst Alberto Romero, BLOOM will “break the stranglehold big tech has on the research and development of large language models.”

3. ESMFold

Developers: Meta AI

Parameters: 15 billion

The most recent model to be released on this list, ESMFold, or Evolutionary Scale Modeling, can accurately predict full atomic protein structures from a single sequence of a protein.

Predicting a protein’s 3D structure has the potential to speed up drug discoveries. Meta’s AI model aims to do this, with ESMFold boasting “high accuracy end-to-end atomic level structure prediction directly from the individual sequence of a protein.”

Meta’s AI researchers fed protein data into their language model to see if it would predict protein structures.

They found their model achieved similar accuracy to AlphaFold2 or sequences with low perplexity, according to a research paper covering the new model. “ESMFold inference is an order of magnitude faster than AlphaFold2, enabling exploration of the structural space of metagenomic proteins in practical timescales.”

And to challenge rival model AlphaFold2, Meta research engineer Zeming Lin said his team plans to open source ESMFold in the future.

A note about DeepMind’s AlphaFold:

Developed by the Google-owned DeepMind, AlphaFold has 21 million parameters and can predict protein structures. The deep learning system was trained on more than 170,000 proteins from a public repository of protein sequences and structures. AlphaFold uses an attention network – a deep learning technique where an algorithm recognizes parts of a larger problem — then pieces them together to obtain the overall solution.

The initial version of the model was released in late 2018, with a second version, AlphaFold 2, publishing in 2020. DeepMind went on to release the source code a year later.

Similar Posts