[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (2)

Senior Analyst Taesun Lee 2023-05-12 18:562023-05-29 2023-05-29 07:07

LLM, 규모 커지면 갑자기 “창발적” 능력 갖게 되기도 충분한 데이터, 학습 알고리즘, 계산 능력 3요소 모두 있어야 LLM이 제 기능 할 수 있어 LLM, 주어진 텍스트 보고 스스로 질문하는 “자체 감독” 방식으로 훈련된다

[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (1)에서 이어집니다.

하지만 LLM이 어떤 결과물을 내는지는 완전한 미지의 영역입니다. 모델의 규모가 커지면서 소위 말하는 “창발적” 능력이 발현되기 때문입니다. 오픈AI의 한 연구원에 따르면 다양한 종류의 LLM이 지닌 창발적 능력은 137개에 이릅니다.

창발적 능력은 모두 LLM의 훈련 데이터나 주어진 프롬프트에 기인합니다. 무슨 마법처럼 나타나는 능력은 아니라는 겁니다. 그러나 LLM이 특정한, 굉장히 큰 임계값을 넘어서기 전까지는 분명해지지 않습니다. 예를 들면 어떤 크기의 LLM은 무작위로 글을 쓸 수는 있지만 성별이 포함된 독일어 문장을 작성하지는 못합니다. 그런데 이때 모델의 크기를 더 키우면 갑자기 새로운 능력이 나타납니다.

또 앞서 언급했듯이 GPT-4는 미국 변호사 시험의 하나인 American Uniform Bar Examination을 굉장히 훌륭한 점수로 통과했는데, 그보다 조금 더 작은 GPT-3.5는 탈락의 고배를 마셨습니다.

이러한 창발적 능력은 LLM의 아직 개척되지 않은 잠재력을 암시하기에 흥미롭습니다. 모델의 크기를 키우면 모델이 갑자기 못 하던 작업을 거뜬히 수행한다니, 관심이 생기지 않을 리가 없죠. 하지만 그만큼 우려의 목소리도 높습니다. 모델이 커지면 특정한 사회적 편향이 나타난다는 연구 결과도 있죠. 모델에 어떤 잠재적인 유해성이 존재하는지, 지금은 눈에 보이지 않더라도 모델의 규모가 조금만 더 커지면 이런 유해성이 드러나는 건 아닌지 파악하는 건 쉽지 않습니다.

방대한 양의 데이터, 이 데이터로부터 학습을 할 수 있는 알고리즘, 그리고 이 학습을 수행할 수 있는 계산 능력이라는 세 가지 요소가 모두 있어야 LLM이 설득력 있는 텍스트를 만들고, 창발적 능력이 출현하게 됩니다. GPT-4에 대한 세부 사항은 아직 베일에 싸여 있지만, GPT-3의 구성과 기능은 지난 2020년 오픈AI가 발표한 논문을 통해 공개됐습니다.

GPT-3 신경망의 가중치는 학습 데이터를 보기 전에는 무작위로 부여돼 있습니다. 이 경우 프로그램은 말도 안 되는 문장을 만들어내죠. 프로그램은 훈련을 거쳐야 말이 되고 유창한 응답을 내놓을 수 있습니다. GPT-3의 훈련 데이터는 다양하지만, 대부분은 비영리 단체 커먼 크롤(Common Crawl)의 데이터베이스에서 가져온 2016년에서 2019년 사이의 웹 아카이브에 해당합니다. 이때 초기 데이터 45테라바이트는 다른 기계 학습 모델로 필터링됐습니다. 인터넷에는 수많은 정크 텍스트가 있기에 그 중에서 고품질 텍스트만을 선별하기 위해서였죠. 또한 GPT-4는 알려지지 않은 다량의 이미지(수 테라바이트 정도로 추정)로도 교육을 받았습니다. 2010년대에 이미지 처리 분야에 혁명을 불러왔던 신경망 알렉스넷(AlexNet)이 126기가바이트 분량의 레이블링된 이미지 120만 개로 훈련받았다는 것을 생각해 보면 그 규모가 엄청나다는 것을 알 수 있습니다.

LLM은 훈련 과정에서 주어진 텍스트를 보고 스스로 질문을 만들어냅니다. 텍스트 한 덩어리를 뽑고, 마지막 몇 단어를 가린 뒤 거기에 무엇이 들어갈지 추측하는 식이죠. 이후 이 추측을 정답과 비교합니다. 데이터 자체에 이미 답이 존재하기 때문에 LLM은 인간 라벨러를 필요로 하지 않습니다. 이러한 훈련 과정은 “자체 감독(self-supervised)” 방식이라 불립니다.

모델은 “오류를 최대한 줄이고, 최대한 정확한 추측을 하는” 것을 목표로 합니다. 하지만 여기서 오류의 형태는 다양하죠. 만약 원본 텍스트가 “I ate ice cream”이라면 “I ate ice latte”라는 추측을 내놓은 경우가 “I ate ice is”라는 추측을 한 경우보다 높은 점수를 받습니다. 모델의 추측이 얼마나 나쁜지는 “손실”이라는 값으로 수치화됩니다. 이 손실은 몇 번의 추측 후 신경망으로 재전송되고, 더 나은 답변을 생성하는 방향으로 가중치를 조정하는 데 이용됩니다.

[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (3)으로 이어집니다.

[해외 DS] 유니콘의 존재를 증명한 결혼한 독신자

Kwangjae Kim 2023-10-19 09:002023-10-23 해외AI/DS소식

역설적으로 논리학과 철학은 모순을 기준 삼아 더 견고해졌다. 다시 말해 단 하나의 모순이 참이면 이때까지 쌓은 철옹성 같은 논리학은 무너진다. 연약함과 강인함을 동시에 가진 논리학을 흥미로운 예제들로 살펴보고자 한다.

[해외DS] AI, 생물 다양성 보호하는 원주민 도울 수 있다

정서원 기자 2022-08-18 09:002023-04-13 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 해당 기사는 예일 대학교 교수 겸 하버드 환경 센터 연구원 와이 치 디목(Wai Chee Dimock)의 개인적인 견해임을 밝힙니다. 와이 치 디목(Wai Chee Dimock)은 예일 대학교 교수 겸 하버드 환경 센터…

[해외 DS] 인공지능 일기예보, “아직은 인간을 대체할 수 없어”

Senior Analyst Taesun Lee 2024-01-10 18:132024-01-10 해외AI/DS소식

AI 기상 모델 ‘그래프캐스트’, 허리케인 ‘리’의 상륙을 슈퍼컴퓨터보다 더 빨리 예측해 그래프캐스트는 기존 모델보다 빠르고 저렴하게 예측을 생성할 수 있어 하지만 해석이 어렵고 드문 사건을 예측하는 데는 한계점 분명 [해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (GIAI R&D Korea)에서 콘텐츠 제휴가 진행 중입니다. 작년 9월 중순 허리케인…

[해외DS] 과학자들이 AI를 사용해 동물과 대화하는 방법

Senior Analyst Siho Lee 2023-02-09 09:002023-04-02 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. 1970년대, 전 세계는 코코라는 이름을 가진 어린 고릴라에 주목했습니다. 코코는 무려 인간의 수화를 쓸 수 있었기 때문입니다. 하지만 회의론자들은 코코를 비롯한 ‘말하는 방법’을 ‘배운’ 동물들(침팬지나 돌고래도 여기에 포함됩니다.)이 자기가…

[해외 DS] 예측하면서 움직이는 쥐, 인간의 상상력과 같을까?

Senior Analyst Siho Lee 2023-11-07 09:002023-11-16 해외AI/DS소식

쥐도 인간처럼 미래를 예측하고 시각화할 수 있는 능력을 가지고 있다는 연구 결과가 발표됐다. 연구진은 쥐의 뇌에 뇌-기계 인터페이스를 연결하여 쥐의 뇌 활동을 추적했다. 실험 결과 쥐는 가상 현실 환경에서 눈에 보이지 않는 장소나 물체에 대해 생각할 수 있는 것으로 나타났다. 연구진은 이러한 결과가 쥐의 의식적 사고와 관련이 있다고 보지만, 다른 과학자들은 해마의 무의식적 사고흐름과 관련이 있을 수 있다고 반론을 제기했다.

[해외DS] 오픈AI GPT-4 출시, 챗GPT 플러스에서 만난다 (2)

정서원 기자 2023-03-16 09:002023-04-02 해외AI/DS소식

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다. [해외DS] 오픈AI GPT-4 출시, 챗GPT 플러스에서 만난다 (1)에서 이어집니다. GPT-4, 얼마면 됩니까? 오픈AI는 GPT-4의 이용료를 프롬프트 토큰 1,000개당 0.03달러, 완료 토큰 1,000개당 0.06달러로 책정했습니다. 속도 제한도 존재합니다. 기본적으로 1분에 최대…