[해외DS] LLM의 한계, 과연 존재할까?

언어 작동 방식에 대한 모델, 세상이 작동하는 방식에 대한 모델 될 수 있어 LLM 개선 노력 이어지는 중, 실제 장치 연결하거나 확산 모델 기능 향상 시도하기도 AGI 도전하는 연구자들도 있어, 과연 LLM 진보가 AGI 진보로 이어질까?

6
pabii research

사람들은 챗봇에게 재미있고 특이한 텍스트를 요청하면서 챗봇의 능력에 열광했습니다. 여행 일정을 짜 달라거나 학교 숙제를 대신해 달라, 컴퓨터 코드를 짜 달라 같은 실용적인 요청도 했죠. 요즘 나온 대형 언어 모델(LLM)의 능력은 대단하지만, 그렇다고 LLM이 내놓은 답변을 그대로 갖다 쓰면 안 됩니다. 모델이 잘못된 정보를 알고 있거나, “환각”이라 불리는 이상한 답변을 내놓을 가능성이 있기 때문입니다.

LLM은 엄청나게 진보했습니다. 몇 년 전만 해도 이런 프로그램은 상상에 불과했죠. 하지만 LM의 가장 중요한 능력은 맞춤형 글을 대량으로 양산하는 것이 아닙니다. 텍스트를 생성해 내는 능력 덕분에 LLM은 범용 추론 엔진이 되어 지침을 따르고, 계획을 만들어내고, 다른 시스템이 수행할 명령을 내릴 수 있습니다.

스탠포드 대학 인간 중심 지능 연구소(Human-Centered Artificial Intelligence, HAI) 소속 퍼시 리앙(Percy Liang)교수에 따르면 언어는 단순한 단어의 나열이 아니라 세상의 “근본적인 복잡성의 표현”입니다. 언어가 작동하는 방식에 대한 모델은 세계가 작동하는 방식에 대한 모델이 될 수 있다는 거죠. 한 AI 업계 관계자는 대량의 텍스트로 훈련받은 LLM이 텍스트 완성을 기반으로 추론하는 방법을 배운다고 설명했습니다.

허깅GPT의 작동 방식./사진=Yongliang Shen et al. “HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face”

LLM으로 다른 구성 요소를 제어하는 시스템 역시 확산되고 있습니다. 마이크로소프트와 중국 저장 대학이 공동 개발한 허깅GPT(HuggingGPT)는 챗GPT(ChatGPT)를 활용해 텍스트나 이미지, 오디오 작업에 쓸 수 있는 모델의 라이브러리인 허깅페이스(Hugging Face)에서 적합한 AI 모델을 선택, 사용자의 요청을 처리합니다. 마이크로소프트 연구원이 개발한 태스크매트릭스.AI(TaskMatrix.AI)는 음악 스트리밍 서비스나 온라인 쇼핑몰, 온라인 게임 등과 상호 작용할 수 있는 챗봇입니다. 구글 연구원이 만든 PaLM-E 역시 좋은 예시입니다. 이 모델은 센서 데이터와 텍스트로 훈련된 LLM을 활용해 로봇을 제어합니다. 덕분에 로봇은 사용자가 하는 말을 이해하고 그에 맞는 작업을 수행할 수 있습니다. 이외에도 정말 많은 사례가 존재합니다.

사실 PaLM-E처럼 LLM을 실제 장치에 연결하려는 시도는 안전 관련 우려를 불러일으켰습니다. 그렇지만 많은 연구자들이 이러한 경우에서 안정성을 높이려는 연구를 진행하고 있습니다. 만약 LLM이 세상의 작동 방식에 대한 풍부한 감각이 포함된 데이터 셋으로 훈련을 받는다면 환각이 줄어들지도 모릅니다. 형식 추론 기능이나 외부 모듈로 LLM을 보강하려는 접근 방식도 존재합니다. LLM을 중심으로 하는 구축 시스템은 향후 몇 년 동안 시장을 주도할 것입니다.

학계에서는 LLM 자체를 개선하려는 노력도 이어지고 있습니다. 민간 기업이 개발한 모델로는 부족하기 때문인데요, 실제로 알파카(Alpaca)라는 모델은 학술 연구원이 LLM의 기능과 한계를 더 쉽게 조사할 수 있도록 개발됐습니다.

캘리포니아 대학의 퍼시 리앙(Percy Liang) 박사는 구글에서 개발한 “트랜스포머(transformer) 아키텍처에 기반한 현대의 LLM에는 단기 기억과 비슷한 제한된 “컨텍스트 창”이 존재한다고 지적했습니다. 이 창 길이를 두 배로 늘리면 계산 부하는 두 배가 아닌 네 배로 늘어납니다. 바로 이 점 때문에 모델의 개선 속도는 제한됩니다. 많은 연구자들은 “롱 러닝(long learning, 딥러닝의 반댓말)”이라고 불리는, 훨씬 더 큰 컨텍스트 창을 지원할 수 있는 포스트 트랜스포머 아키텍처를 연구하고 있습니다.

한편 다른 연구자들은 “확산” 모델의 기능을 향상시키려는 시도를 하고 있습니다. 스테이블 디퓨전(Stable Diffusion)이 그 예시인데, 이러한 발전된 AI 모델은 짧은 텍스트 프롬프트만을 보고도 고품질 이미지를 생성합니다. 텍스트는 이미지와 달리 개별 단어로 구성돼 있지만, 리앙 박사에 따르면 텍스트에도 확산 기능을 적용할 수 있습니다. 이것이 실현된다면 LLM을 개선하는 또 다른 길이 열릴 것입니다.

그렇지만 회의적인 시각도 존재합니다. 튜링상을 수상한 얀 르쿤(Yann LeCun) 교수는 뉴욕대에서 열린 토론회에서 현재 모습의 LLM이 “운명”이며, 이것의 출력을 제어하거나 오류를 방지하려는 노력은 실패할 것이라고 주장했습니다. 그는 “학계의 지배적인 의견은 아니지만 개인적으로는 이를 고칠 수 있다고 생각하지 않는다”라고 말했습니다. 즉 LLM은 잘못된 방향으로 가고 있고, 보다 강력한 AI로 가는 길에서 이탈했다는 것입니다.

일부 연구자들은 이러한 “인공 일반 지능(Artificial general intelligence, AGI)”, 혹은 “범용 인공 지능”을 진지하게 연구하고 있습니다. 더 큰 LLM을 구축하기만 하면 AGI도 만들어낼 수 있다는 것입니다. 물론 르쿤 교수 같은 이들은 동의하지 않습니다. LLM의 끝이 존재하는지 여부와 관계없이, LLM은 과거에 비해 훨씬 더 진보했습니다. 과연 이것이 AGI에도 가까워졌음을 의미하는지는 조금 더 지켜봐야 할 듯합니다.

Similar Posts