AGI (범용인공지능)은 멀었다. 많이 멀었다.

2
pabii research

예전에 어떤 공학 전공 출신이라는 분이 뜬금없이 사무실에 쳐들어오더니, 나한테 상담을 하고 싶다고 그랬던 적이 있다.

(이런 황당한 사건은 항상 공대 출신들한테서만 겪었는데, 아직도 그런 무례한 행동을 하는 이유를 모르겠다.)

당황한 상태라 내쫓지도 못하고 어엇거리는데, 갑자기 자리에 앉더니

인공지능이 진짜 곧 필요할까요? 배워놓으면 도움이 될까요? 꼭 해야 하나요?

이러더라.

 

오늘 소개하고 싶은 영어권 기사에 나오는 “AI Hype”을 주도하는 사람들이 딱 그런 분들이지 않을까?

자기가 공부하고 이해하려는 노력없이, 그저 누가 “유명한 사람”이 말했다면 믿고 따라가려는 무지몽매함?

배운다고 하는게 코드 베끼기인지, 정말 수학 기초부터 탄탄히 다져서 제대로 알고 쓰는 능력을 갖추는 건지는 모르겠지만…

(Source: Scientific American)

 

AGI (범용인공지능)은 멀었다. 정신차려라.

가끔씩 보는 Scientific American이라는 영어권 언론사가 있다.

진짜로 “Science”에 대한 지식이 어느 정도 있어야 이해할 수 있는 종류의 고급 저널이다.

 

오늘 소개할 글은 “범용인공지능이 그렇게 눈 앞에 닥친게 아니니까 과장된 기대하지 마라”는 기고글이다.

좀 더 정확하게는, 기초 연구 해야될 주제들이 산더미처럼 쌓여있으니까, 마치 내일 AGI 완성되는 것처럼 거짓 PR하지 말라는 이야기다.

 

이미지를 인식하고, 언어를 처리하고, 좀 있으면 직원들 없이 로봇으로 모든 일이 다 처리되는 것처럼 떠드는데,

사실 현재 기계로 “학습” (Learning)이라고 불리는 행위가, “Superficial”, 껍데기만 긁어오는 수준이지,

“Reasoning”, 추론을 하고, 그 복잡한 생각의 결론 끝에 새로운 정보를 얻어내는 작업이 아니라는 것을 지적한다.

 

The central challenge going forward is to unify the formulation of… learning and reasoning

뭐, 매번 하던 말이라 내 입장에선 별로 놀라운 이야기는 아닌데,

인공지능이 내일 당장 세상을 바꾸고, “특이점”이 곧 다가오고 있고, Alpha-go, Alpha-zero… 같은 이름만 달달 외우는 분들은

납득하기 어려울 수도 있겠다.

그간 경험을 봤을 때, 저 말 한 사람 누구냐, 에이~ 별로 안 유명하네~ 같은 소리만 할 것이다.

유명한게 권위가 아닌데… 지식이 권위인데…

유명세는 돈과 PR의 결과물이건만.

 

내가 Scientific American 같은 신문을 보는 이유는, 그런 “정신차려야 할 사람”들과 철저하게 벽을 쌓은 기사만 올라오는 언론이기 때문이다.

위의 기고글도 GPT-3이 어떻고 DALL-E가 어떻고 이런 PR들이 딱 해당 문제에 적합하게 fit이 되어 있는 수준일 뿐이지,

Deep Neural Network (DNN)이라는 것이 단순히 fitting의 정확도를 끌어올리기 위해 계산비용 & 일반화를 포기한 계산법일 뿐이지,

달리 뭔가 대단한 혁신이 일어난 게 없다는 것을 강조한다.

(Credit: Alfred Pasieka / Science Photo Library / Getty Images)

 

데이터 활용하는 계산법은 예나 지금이나 똑같다

깊이없이 피상적인 지식만 주워담는 비전문가들 대다수가 인지 못하고 있겠지만,

지난 10년간 인류가 만들어낸 혁신은, Neural Network의 계산 속도를 감당할 수 있도록

  • 하드웨어적인 연산 속도 개선
  • 수학적인 계산방식 변경

밖에 없다.

 

좀 더 깊이 들어가보면, 수학적인 계산방식 변경은 사실 1940년대 아이디어고, 1980년대에 틀이 갖춰졌었고,

2000년대 후반 이후로 컴퓨터 계산 속도가 빨라져서 더 우리 일상에 친근하게 다가왔을 뿐이다.

컴퓨터 계산 속도라는 부분도, 하드웨어 적인 집적 (14나노, 7나노, 3나노..이런거) 덕분에

발열없이, 좁은 면적에 더 많은 연산 프로세서를 넣을 수 있던 부분에 + 대용량 처리를 위한 추가 연산자가 들어갔기 때문이다.

 

좀 쉽게 말하면, 지난 몇 십년간 하던 거 계속해왔는데, 운 좋게 여러가지가 함께 맞았을 뿐, 갑작스레 인류 지식이 크게 진일보 한 게 아니다.

Neural Network라고 불리는 계산이, 계산비용이 너무 비싸서 잘 안 썼는데, 몇몇 주제로 쓸만해진 상태가 왔고,

덕분에 Non-linear pattern matching이 필요한 영역 몇 군데에 적용하면서 이전에 못 하던 걸 몇 가지 더 할 수 있는 상태다.

 

키가 좀 자라서, 철봉을 혼자 힘으로 잡고 깡총깡총 뛰며 좋아하는 아이의 얼굴이 적절한 비유가 될 것 같다.

현재 인터넷 이곳저곳에서 PR로 뿌려지는 AI라고 불리는 레벨을 그 아이,

속칭 “특이점 충” 들이 꿈꾸는, 정말로 알아서 척척척 혼자서 학습하는 AGI (범용인공지능)이라는 것을

그 아이 옆에서 올림픽 금메달을 따는 체조선수라고 생각하면,

“능력” or “기술력”의 격차에 대한 적절한 비유가 될 것 같아 보인다.

그 아이가 언젠가 올림픽 금메달을 딸지 모르잖아요~ 하겠지만, 둘 사이의 확률 게임은 무한대 분의 1에 불과하다.

 

과대 포장으로 투자금 유치에 목을 매고, 주가 부양 목적이라는 의혹이 들도록 실체없이 PR 위주로만 돌아가는 현재 AI 시장을 한꺼풀 벗겨보면,

지난 5-10년간 엄청난 돈을 쏟아부어서 마치 내일 모레 AI에 의해 인류가 멸망하는 것처럼 말하는 이상과 비교해서,

현실은 고작 Taylor’s expansion으로, 손이 귀찮게 찾아야했던 고차함수 형태를 컴퓨터로 근사치를 찾아낼 수 있는 상황에 불과하다.

 

이게 무슨 17세기 인류에게 미분, 적분 수준의 엄청난 수학 지식, 그래서 수, 공간 등등의 인류 지식 체계의 근간을 완전히 뒤트는 혁명적인 내용도 아니고,

20세기 초의 상대성 이론, 불확정성의 원리 같은 우주물리학을 다시 쓰는, 즉 자연과학 이론 체계를 뒤트는 지식도 아니다.

그저, 복잡해서 적당히 가정했던 함수 하나를 좀 더 근사치로 찾아낼 수 있도록 컴퓨터를 더 쥐어짜는 방법을 알아냈을 뿐이다.

일반화를 포기하고, 엄청난 계산비용을 써야한다는 두 가지 손해를 감수하고 써야하는 곳들에서는 유용하긴 하다.

 

그런 계산법 하나 바뀐 것을 빼면, 데이터를 쓰는 방식은 예나 지금이나 다를게 하나도 없다.

우리가 갖고 있는 도구가 바뀐게 없거든.

실체가 이런 상황인데도 계속 거짓말로 세금 빼먹기만 하다가는, 청년 실업률이 미친듯이 폭증하는 중국 꼴이 날 것이다.

그 땐 정말로 청년들 도와주고 싶어도 정부가 돈이 없어서 못 도와주는 최악의 상황을 맞는다.

일본은 초중고의 과학 교육 수준을 관리할 수 있는 기관이 따로 있고, 중국도 늦었지만 베껴가는 중이란다.

한국은? 우리도 중국 꼴이 나고나야 일본 벤치마킹 하려고?

 

인공지능을 배우고 싶습니다, 강화학습을 배우고 싶습니다

위의 문구도, 항상 공학 전공자들한테서만 받았던 메일에 들어간 문구다.

공대서 다들 어떻게 배우고 있는지 모르겠는데,

  • Dynamic optimization
    • Bellman equation
    • Hamiltonian
  • Markov process
  • Game theory
  • Markov Chain Monte Carlo (MCMC)

같은 “기초” 지식을 일단 알아야 뭔가 이야길 해 볼 수 있는 Reinforcement learning (강화학습)을 놓고,

  • 빠르게 배울 수 있는 방법은 없나요?
  • 코드만 주시면 안 될까요? 코드만 쓸 줄 알면 되지 않나요?
  • 꼭 수학을 배워야 하나요? 제가 수알못이어서요.
  • 다른 학원에서는 수학 몰라도 할 수 있다고 하던데요?
  • 어차피 코드만 있으면 회사 일하는데는 문제 없어서요.

같은, 얌체짓을 하고 싶다는 걸 대놓고 말하는 질문들을 하더라.

자기 전공 학생들이 밖에서 그러고 다니는 줄 알면 교수들이 수업시간에 지적질도 좀 하고, 애들 눈을 깨칠 교육을 해야되는거 아닌가?

 

그런 AI Hype에 경도된 분들이 운영한다는 블로그, Github을 찾아가보면, Alpha-go, Alpha-zero, GPT, Gato 이런 용어들만 잔뜩 들어가있고,

어디서 누가 언급해 놓은 내용들만, 좀 더 나아가면 코드만 잔뜩 모아놨다. 그럼 트렌드를 잘 따라간다고?

그런건 “공부”가 아니라, 그냥 “자료 수집하기” 아닌가? 그래놓고 전문가?

 

그게 아니면, 위에 언급한 “기초” 지식들을 자기는 다 배웠다면서 이제 코드만 보면된다는 경우도 은근 있었는데,

아마 Dynamic optimization으로 우리 SIAI의 교육과정 시험문제… 아니 연습문제에 손도 못 대는 수준일 것이다.

아니, Bellman equation 기본형 문제는 커녕, 우리 MBA나 학부 2학년 기초 수학 문제도 못 푸는 수준이지 않을까?

그저 코드 좀 베낀게 실력이 생긴게 아니라, 기초부터 하나씩 체계가 잡힌 교육을 받아야하거늘…

 

기초 지식 없이 이쪽 분야에 발을 들이면 할 수 있는 일이라는게 “일반화”가 굉장히 잘 된 코드 베끼기 밖에 없다.

제대로 통계학을 기초부터 쌓아올리다보면 OLS를 모든 곳에 아무 생각없이 돌렸을 때 어떤 문제가 생기는지를 몇 학기 동안 배우고,

까딱 잘못쓰면 엉망이 된다는걸 알게 되면서 통계학자들이 지난 몇 백년간 그런 문제를 어떻게 피해왔는지,

그런 지식이 얼마나 따라가기에 버거운 지식인지를 느끼게 된다.

코드 베끼기라는게 그냥 아무것도 모른채 OLS 돌리는 수준이라는 것도 깨닫게 되겠지.

 

공학도들 대부분이 이걸 가벼운 코드 복붙으로 생각하는건,

거의 대부분이 “자동화”되는 시스템에 대한 열광, 실제로 그래도 상관없는, 좁은 영역의 데이터만 다루는 분야만 봤기 때문일 것이다.

자기들 영역 밖에 있는 수 많은 데이터 포맷에 다 맞아들어가는 “일반화”는 넘사벽의 도전이라는걸 인지할 수 있는 경험이 없었을 것이다.

데이터 포맷을 맞춰야 한다“는 Andrew Ng의 인터뷰가 위의 한계를 넘는 “일반화”를 위한 수학적 도전을 포기하고,

데이터 형태를 자기네 입맛에 뜯어고쳐야 한다는걸 인정하는 발언이라고 봐도 무방하다.

 

이해를 못하는 이유를 좀 더 심하게 찝어내면, 한국 공대들이 “자동화”를 위한 코드 복붙 뒤에 있는 “이론 모델링” 교육에 실패했기 때문이겠지.

그러니 “일반화”가 얼마나 무모한 도전인지 감을 못 잡고 곧 AGI가 나온다고 떠들어대는 애들이 그렇게 많은게 아닐까?

더 심하게는, 한국이라는 시장 전체가 겉만 번지르르하게 포장하는 “PR” 때문에 오염되었기 때문이겠지.

그걸 틀렸다고 솔직하게 이야기하면서 가짜AI들이 제공해주는 꿀맛 돈줄을 놓기 싫은 공대 교수들을 굳이 비난하고 싶진 않다.

 

“PR”이 만든 Lemon market

내가 Neural Net이라는 계산을 처음 배우던 시절에는, Library라는게 딱히 없어서, 최소한 몰라서, Layer를 하나하나 코드로 만들어가면서 문제를 풀었었다.

요즘은 그런 계산을 편하게 처리할 수 있도록 수많은 Library가 나와있는 덕분에, 계산 작업 하기가 참 쉬워졌다.

 

그런데, 그 공부하던 시절에도, 수업 중에 문제 요구 조건에 맞게 제대로 Layer를 셋팅하는 애들은 별로 없었고,

누군가는 문제 요구 조건을 이해하질 못해 엉뚱하게 Layer를 셋팅하는 바람에 오답을 찾아내는 경우가 많았다.

같은 반에서 공부해도 누구는 전국 1등하고, 누구는 전국 꼴등하잖아.

 

아마 이세돌 – 알파고 사건을 계기로 쏟아진 각종 PR이 궁극적인 원인이기는 하겠지만,

요즘 Library들이 수십, 수백개가 나와서 너도나도 쉽게 “데이터 분야”에 접근하고 있는데,

거의 대부분, 아니 모든 사람들이 오답 찾아내던 친구들보다 더 심각하게 엉망인 이해도를 갖고 그런 Library들을 쓰고 있다.

 

방법론에 국한해서보면, 이쪽 지식이 충분히 Democratized 되었다고 생각한다.

그러나, “제대로 알고 쓸 수 있는” 인력 구성에 국한해서 보면, 예전과 바뀐 부분은 별로 없어 보인다.

왜? OLS 배우고 난 다음에 기초 가정 (Gauss-Markov) 붕괴되는 상황들 알려주고나면 통계학과에서도 얼마 못 살아남았다.

Library만 갖다 붙일 수 있다고 아는게 아니라, 제대로 된 수학 배경 지식이 있어야 되는데, 그게 넘어가기에 좀 많이 힘든 벽이다.

 

학부 고학년 통계학과 수업 계속 듣고, 대학원가서도 잘 따라가는 비율이 몇 % 정도 되는지 주변 통계학도들에게 한번 물어보시라.

다른 전공 출신이라고해서 그런 종류의 지식을 배우면 더 많이 살아남을까? 샘플 bias가 있다고해도 결과값이 크게 다르진 않을 것이다.

실제로 교실 안에서는, 심지어 국내 최상위권 명문대학 석,박사들이 모인 우리 SIAI 교육과정에서도, 상황은 크게 다르지 않다.

“제대로 알고 쓸 수 있는” 인력 풀은 별 차이가 없다.

죽어라 열심히 공부하거나, 아님 DNA를 타고난 천재거나.

 

“PR” 때문에 인재의 풀이 오염된 탓에 일종의 Lemon market이 형성된 것 같은데,

게임이론 수업을 듣다보면 Lemon market을 해결하는 가장 확실한 방법이 Signal 게임으로 규칙을 변경하는 것이고,

그 Signal이 인재 채용으로 넘어가면 대학 학위 같은 걸로 나타난다고 배운다.

 

우리나라처럼 학위를 하나 주기 위해 억지로 만드는 교육 과정이 아니라,

진짜 제대로 배우는 교육 과정에서 혹독한 훈련을 거치는 사람들이 생겨야 Lemon market의 문제가 해결되겠지.

제대로 된 교육을 받았다는 신호효과가 있는, 자격증을 갖춘 인재 (Plum)와 코드 베끼기 인재 (Lemon)으로 양분되는.

 

Lemon market의 또 다른 Equilibrium은 멀쩡한 차량은 중고차 시장에 안 들어오고, Lemon들로만 꽉 차는 경우다.

현재 미국과 우리나라의 AI/Data Science 관련 인력 시장이 정확하게 두 개의 다른 Equilbrium을 보여주는 것 같다.

어느 나라가 Plum을 제대로 쓰고 있고, 어느 나라가 Lemon 밖에 없는 나라인지는 독자 분들이 더 잘 알 것이다.

Similar Posts