[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (1)

챗GPT 필두로 생성AI에 업계의 이목 쏠려, 지나치게 빠르게 개발된다는 우려도 존재 다른 소프트웨어에 내장됐던 신경망, 기술 발전하며 이용자 직접 마주했다 AI 영향 고민하려면 AI의 작동 방식부터 이해해야

6
pabii research

챗GPT(ChatGPT)를 만든 오픈AI가 지난해 11월 자사의 챗봇을 처음으로 대중에 공개하자 생성 AI는 그야말로 뜨거운 감자가 되었습니다.

챗GPT는 마다가스카르의 최대 기업이 어디인지도 알고 있습니다./사진=챗GPT 캡쳐

챗GPT는 인간보다 더 많은 지식을 가지고 있습니다. 정말 뜬금없는 주제, 예를 들자면 태평양 섬나라 한 곳에서의 채광 사업이나 지구 반대편의 회사에 대한 대화조차도 설득력 있게 할 수 있죠. 챗GPT의 기반이 된 인공 신경망 GPT-4는 미국의 변호사 시험과 의사 시험에 합격하기도 했습니다. 아, 물론 예술 분야에서도 뛰어납니다. 곡을 쓰거나 시 혹은 수필을 쓸 수도 있죠. 다른 생성 AI 모델 중에서는 사진이나 그림, 애니메이션을 대량으로 찍어낼 수 있는 것도 있습니다.

하지만 일각에서는 생성 AI 모델의 개발 속도가 지나치게 빠르지 않냐는 목소리도 나오고 있습니다. GPT-4는 생성 AI 중 대형 언어 모델(LLM, Large Language Model)에 해당하는데, 구글의 모회사 알파벳(Alphabet)이나 엔비디아(Nvidia), 아마존(Amazon) 같은 빅테크 기업들은 모두 LLM을 선보인 바 있습니다.

시장은 아직까지 AI의 가능성에 더 주목하고 있지만, 이를 규제하려는 움직임도 심상치 않습니다. 미국과 유럽, 중국 정부는 AI 규제를 위해 새로운 규정을 마련하고 있습니다. 인공 지능 개발을 아예 중지하라는 사람들도 있죠. 프로그램이 인간의 제어를 벗어나 인간 사회에 해를 끼치지는 않을까 우려하는 것입니다.

AI는 과연 우리에게 어떤 영향을 줄까요? 그것을 생각하기 전에는 먼저 AI의 시작과 작동 방식, 그리고 한계를 이해해야 합니다.

현대적인 의미에서의 AI는 “딥 러닝” 기술이 대중화된 2010년대 초에 시작됐습니다. 딥 러닝 기술은 어마어마한 양의 데이터 셋, 그리고 신경망을 활용해 이미지를 인식하고, 오디오를 처리하고, 게임을 하는 컴퓨터의 능력을 엄청나게 발전시켰습니다. 2010년대 후반까지 컴퓨터는 이러한 분야에서 인간을 능가했죠. 하지만 코딩과 관련이 없는 일반인은 이러한 AI를 직접 마주할 일이 거의 없었습니다. 신경망이 주로 어떤 소프트웨어에 내장되는 형태를 취했기 때문입니다.

하지만 기술이 비약적으로 발전하면서 AI는 인간과 직접 교감하는 독립적인 프로그램으로 출시되기 시작했습니다. 예를 들면 챗GPT는 대화 형식으로 작업을 수행하며 이용자에게 ‘AI’와 ‘직접 대화’한다는 인식을 심어줍니다. 인간이 드디어 AI를 의식하게 된 것입니다.

챗GPT는 어떻게 작동할까요? 우선 이용자가 입력한 쿼리는 신경망이 처리할 수 있도록 숫자의 집합으로 변환됩니다. 이전 버전의 챗GPT 구동에 쓰였던 GPT-3에서는 보통 텍스트를 ‘토큰’이라 불리는 단위로 나눈 뒤 각 토큰을 그에 맞는 숫자로 변환했죠. 개별 단어뿐 아니라 “dis-”와 같은 접사, “!”와 같은 문장 부호 등도 하나의 토큰이 됩니다. GPT-3의 ‘토큰 사전’에는 50,257개의 토큰이 존재합니다.

GPT-3은 최대 2,048개, 다음 세대 모델인 GPT-4는 최대 32,000개의 토큰을 한 번에 처리할 수 있습니다. 이 숫자는 중요한데, 모델이 한 번에 더 많은 텍스트를 받아들일 수 있다면 맥락을 더 잘 이해할 수 있기에 답변의 질도 향상되기 때문입니다. 하지만 처리에 필요한 계산은 입력 길이가 길면 기하급수적으로 늘어납니다. 그러니까 문장 길이가 두 배가 된다면 필요한 컴퓨팅 성능은 두 배를 훨씬 상회한다는 것입니다.

이 토큰은 의미의 유사도에 따라 각기 다른 “의미 공간”에 들어가게 됩니다. 이 의미 공간 안에는 해당 토큰과 비슷한 의미를 가진 토큰이 모여 있습니다.

이후 LLM은 “주의 네트워크(Attention Network)”를 활용해 프롬프트의 각기 다른 부분을 연결합니다. 예를 들어 인간은 “옆집에서 갖다 준 빨간 사과”라는 문장을 보고 옆집에서 갖다 준 게 사과라는 사실을 바로 인지할 수 있습니다. 하지만 LLM은 이러한 연관성을 훈련 단계에서 처음부터 배워야 합니다. 주의 네트워크를 통해 수십억 번 이상의 훈련 과정을 거치며 신경망 내에서 숫자로 표현된 언어의 구조를 이해하게 되는 것입니다. 즉 LLM은 문법적인 방식이 아닌 통계적인 방식으로 언어를 배웁니다.

이렇게 프롬프트가 처리되면 LLM의 응답이 시작됩니다. 이때 주의 네트워크는 토큰 사전에 있는 각 토큰이 “생성 중인 문장의 다음에 사용하기에 가장 적합한 토큰일 확률”을 계산합니다. 하지만 무조건 확률이 가장 높은 토큰을 다음에 내지는 않습니다. LLM이 어떤 선택을 하는지는 모델의 창의성에 달려 있습니다.

단어 생성을 마친 LLM은 그 결과를 자체적으로 피드백합니다. 첫 번째 단어는 프롬프트만을 가지고 생성되고, 두 번째 단어는 첫 번째 단어를 포함해서, 세 번째 단어는 첫 번째와 두 번째 단어를 포함해서 생성되는 식입니다. 이 프로세스는 “자동 회귀(autoregression)”라 불리고, LLM의 작업이 끝날 때까지 반복됩니다.

[해외DS] LLM, 막을 수 없다면 헤쳐나가자 (2)로 이어집니다.

Similar Posts