[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (3)

주의 네트워크, LLM 확장에 기여한 핵심 요소 LLM, 비용, 훈련 데이터 고갈, 성능 개선 한계 등으로 무한 성장은 불가능하다 데이터와 데이터 처리 도구가 널리 활용되는 이상 LLM의 힘은 사라지지 않을 것

6
pabii research

[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (2)에서 이어집니다.

주의 네트워크는 LLM이 엄청난 양의 데이터를 학습할 수 있게 하는 핵심적인 요소입니다. 텍스트 안에서 단어와 그 단어의 개념이 서로 떨어져 있는 경우에도 둘 사이에 연관성이 있음을 모델에게 가르치고, 그것을 쓸 수 있게 하며 대량의 데이터를 허용 가능한 시간 안에 처리할 수 있죠. 또한 일반적으로 LLM 안에서는 다양한 주의 네트워크가 병렬로 돌아가는데, 덕분에 프로세스가 여러 개의 GPU에서 실행될 수 있습니다. 주의 모델이 들어가지 않은 이전 버전의 언어 모델은 많은 양의 데이터를 이렇게 빨리 처리할 수 없었습니다. 즉 모델의 크기가 이렇게까지 커질 수 있었던 건 주의 네트워크 덕분입니다.

GPT-3은 수백 개의 레이어와 수십억 개의 가중치 값을 가지고 있으며 수천억 개의 단어를 학습했습니다. 이는 5년 전에 나온 최초의 GPT보다 무려 만 배나 커진 것입니다.

하지만 학계에서는 이러한 성장이 무한정 지속될 수는 없다고 보고 있습니다. 데이터, 컴퓨팅 성능, 전기, 숙련된 인력 등 LLM을 만들기 위해 들어가는 모든 것이 돈이기 때문입니다. 실제로 GPT-3을 훈련시킬 때 들어간 전력량은 1.3기가와트시(2021년 기준 1인당 전력소비량이 1만 330킬로와트시이니 약 126명이 1년 동안 쓴 전력량에 해당합니다)에 달합니다. 금액으로 환산하면 약 460만 달러였죠. GPT-3보다 훨씬 더 큰 GPT-4는 훨씬 더 많은 비용이 들었을 것입니다. 앞서 언급했듯이 처리 가능한 데이터 길이가 늘어나면 컴퓨팅 성능 요구 사항은 더 늘어납니다. 오픈AI의 CEO 샘 알트만(Sam Altman) 역시 이미 한계에 도달했다고 생각했는지, 한 대학 강연에서 모델의 성능을 높이기 위한 다른 방안을 강구하겠다는 발언을 했습니다.

사용 가능한 훈련 데이터의 양 역시 문제가 됩니다. 사실 이게 비용 문제보다 더 심각하죠. GPT-3은 이미 인터넷에서 얻을 수 있는 모든 고품질 텍스트를 학습했습니다. 작년 10월 발표된 논문에 따르면 “고품질 언어 데이터는 2026년 이전에 품절될 것입니다.” 물론 개별 회사의 데이터베이스나 개인의 저장 장치에는 새로운 텍스트가 있겠지만, 데이터를 수집하는 회사가 그곳에서 충분한 규모의 데이터를, 저렴한 비용으로 얻을 수는 없습니다.

컴퓨터 성능 개선에도 한계가 있습니다. 2010년대 초 상용화된 GPU처럼 엄청난 성능 향상을 가져다주는 새로운 하드웨어는 앞으로 나오지 않을 것입니다. 구글의 텐서 프로세싱 유닛(Tensor Processing Unit, TPU)처럼 새로운 종류의 칩이 출시되면 어느 정도의 개선은 가능하겠지만, 무어의 법칙은 영원하지 않습니다.

스테이블 디퓨전이 만들어낸 이미지./사진=스테이블 디퓨전 공식 홈페이지

아직 안 끝났습니다, 법적인 문제도 있습니다. 이미지 생성 모델 스테이블 디퓨전(Stable Diffusion)을 만든 스타트업 스태빌리티 AI(Stability AI)가 이미지 및 동영상 플랫폼 회사 게티이미지(Getty Images)에게 고소당한 사건이 그 예시입니다. 스테이블 디퓨전은 GPT-3, GPT-4처럼 커먼 크롤이 제공하는 데이터로 훈련됐고, 주의 네트워크를 활용해 그 데이터를 처리하는 모델로, 생성 AI의 능력을 보여주는 놀라운 사례 가운데 하나입니다. 이러한 모델은 명품 브랜드를 입은 교황이나 체포되는 도널드 트럼프 전 미국 대통령의 사진처럼 현실에서는 일어나지 않았지만 진짜 같은 사진을 만들어내죠.

게티이미지는 스테이블 디퓨전이 만들어낸 이미지에 저작권 워터마크가 포함된 경우가 있음을 지적하며 이 모델이 허가 없이 저작권이 있는 자료를 수집하고 복제했다고 주장했습니다. 챗GPT의 결과물에서는 아직까지 이와 비슷한 증거가 나오지 않았지만, 생성 AI 훈련에 저작권이 있는 자료가 활용됐다는 것 자체는 명백합니다. 저작권법에는 “공정 이용(Fair use)”, 즉 저작권자의 허락 없이 저작권이 있는 자료를 제한적으로 사용할 수 있는 특수한 경우가 명시돼 있는데, 생성 AI가 여기에 해당할지는 추후 법적인 검토가 필요한 부분입니다.

그러나 LLM이 지금 수준에서 멈추고, 오픈AI가 줄소송으로 파산한다 할지라도 대형 언어 모델의 힘은 사라지지 않을 것입니다. 데이터와 그 데이터를 처리하는 도구는 널리 활용되고 있기 때문입니다. 비용이야 많이 들겠지만 말입니다. 현재도 GPT-4를 능가하는, 신중하고 선택적으로 훈련된 오픈 소스 LLM이 존재합니다.

많은 사람들이 LLM을 활용할 수 있게 되면 더 많은 분야에 적용되는 혁신적인 응용 프로그램이 새롭게 출시될 것입니다. 하지만 LLM의 위험성 역시 커졌습니다. LLM의 엄청난 발전 속도는 업계 종사자들까지 겁을 먹을 정도입니다. 가장 큰 LLM의 능력은 제작자의 이해와 통제 범위에서도 벗어났죠. 기대를 하는 건 자유지만, 경각심을 잊어서는 안 됩니다.

Similar Posts