AI대학원 저는 말리고 싶습니다

아래는 연구자들 커뮤니티로 유명한 모 웹사이트에서 본 글이다. (링크)

수 많은 AI 대학원의 위험성(?)은 다음과 같습니다.

CS 분야를 원래 전공했거나 다른 분야를 전공했지만 수학이 강한 일부 연구자를 제외하면 대부분의 AI 연구자들은 제대로 아는 것이 너무 없습니다.

공부를 열심히 하지 않는다는 뜻이 아닙니다. 급변하는 유행을 따라 경쟁적으로 논문을 쓰다 보면 연구 경험이 별로 없고, 실적이 급한 젊은 연구자 입장에서는 대학원 과정 동안 깊이 있게 공부하면서 차분하게 기본기를 익히기 어렵기 때문입니다.

논문 한 두 편을 썼다고 자신이 많이 알고 있다고 생각한다면 큰 착각입니다. 왜냐하면 (특히 응용분야에서는) 잘 알려진 다른 사람들의 연구/접근방법을 약간 바꾸는 것만으로도 논문은 얼마든지 쓸 수 있기 때문입니다. 하지만 왜 그러한 연구/접근방법이 등장했고, 어떤 조건에서 가능/불가능한지, 어떤 장단점/한계가 있는지 등을 이해하지 못한다면 아무리 논문을 많이 써도 여전히 아무것도 모른채 다른 사람들 흉내만 내고 있는겁니다.

AI가 유행일 시기에는, 진짜 고수나 대충 남들 따라하면서 흉내만 내는 AI연구자나 그 차이가 크게 보이지 않습니다.

하지만 지금의 유행이 지나고 나면 대학원 과정에서 깊이있는 지식을 갖추지 못한 AI 연구자들은 어쩔 수없이 또 새로운 유행에 올라 타야 합니다. 이 과정에서 나이는 점점 들고, 연구는 힘들어지고, 그러다보면 평생 KCI급에서 벗어나지 못합니다.

제가 나이가 많습니다. (학술적으로 매우 천박한) 대한민국에서 오랫동안 연구자로 살아 오면서 저런 모습을 주변에서 많이 봐 왔습니다.

젊은 연구자들도 한 번 고민해 보세요.

우선, 선택은 자유라고 생각해서 굳이 내 의견이나 윗 분의 의견을 따르라고 강요하는 글은 아니다. 논조가 고깝다면 무시하면 된다.

서두를 이렇게 시작하는 이유가, 저 분의 생각과 완전히 일치하는 견해를 갖고 있기 때문이다.

그간 한국에서 만나본 AI 관계자라는 분들 중에 내 기준으로 수학을 학문의 도구로 쓸 줄 안다고 생각되는 부류는, 정말 손에 꼽는다. 아니, 수학 제대로 쓰고 있으면 거꾸로 놀란다. 놀라지 말아야 할 분야임에도.

저 글 아래에 댓글들을 보면

미디어와 이상한 어른들이 젊은 학생들한테 저주받은 꿈을 심어놓았죠. 지금 뛰어드는 학생들이 평범한 수준으로 졸업을 하고나서 해당 지식이 필요한 적정한 일자리가 있을지 그들은 관심이 없습니다.
공감하지만 굳이 상위급 ai연구자가 못돼도 다른과 전공하는거보다 돈을 훨씬많이벌기때문에 사람이 몰리는거죠
인공지능 자체는 시들 일 없음. 근데 딥러닝은 시들어질 수도 있을 듯. 딥러닝보다 더 나은 인공지능 학습 방식이 나타나면 그땐 딥러닝이 시들이지겠죠.

정도가 보인다. (나머지는 로그인 해라는데, ID 만들 계획이 없는 서비스라…)

일단 첫번째 코멘트가 나 역시도 줄기차게 해 왔던 이야기다. 그 분들은 석·박사 공부를 했음에도 불구하고 남의 방법론 거의 복붙한 논문만 있지, 실제 역량이 없기 때문에 연구소에서 성과물이 안 나오고, 눈치보고 살고 이런 식이 될 가능성이 매우 높다. 타 전공에서 이런 경우를 정말 헤아릴 수 없이 많이 봤기 때문에 자신 있게 이야기 할 수 있다.

예시를 하나 들면, 회귀분석해서 ‘Unconventional result’가 나왔다고 연구소 직원들 다 모아놓고 발표하는데, Degrees of freedom이 음수인 걸 발표 듣던 사람이 지적하고는 연구소에서 쫓겨나신 경제학 박사 선배님이 있다. 그 분은 지금도 우리들 사이에서 조롱거리다. 가끔 누가 Unconventional 이라는 단어를 쓰면 그 선배님 이름이 함께 나온다.

혹시나 같은 실수를 범하지 말라는거다.

두번째 코멘트는 세번째 코멘트로 반박하고 싶다. 당장은 언뜻 보기에 인력이 부족해 보이고, 저기 들어가면 쉽게 돈 벌 수 있을 것 같을 것이다. 그런데, 딥러닝이라는 그 방법론이 그렇게 완벽 무결한 계산법이 아니라, 온갖 문제를 다 안고 있음을 여러차례 지적한 바 있다.

인간의 반응을 이용해 보정하는 ChatGPT는 대표적으로 Attention mechanism이 활용된 케이스다. 이제 딥러닝 스타일의 NN모델을 적층형으로 쌓아올린 Autoencoder를 만드는 것이 아니라, Factor analysis 구성 요소를 유사한 정보 매칭 방식의 Clustering으로 변경하고 있다.

비슷한 문구를 다른 곳에서도 봤다. (출처 링크)

IT업계 커뮤에서 AI이야기 하다가 본 장문댓글이 인상깊어 복붙

딥러닝의 패러다임의 본질을 논하는 사람은 없어서 한마디 남깁니다. 소위 현대 AI는 사실 MLP의 레이어 확장인 딥뉴럴넷 기본구조의 변주 밖에 없다고 보시면 됩니다. CNN이건 LSTM이건 최근 각종 few shot, transfer learning, 강화학습 등등 전부 기본골격은 MLP개념의 variation입니다. 네트웍구조, 연산자, feature변형, 분류기, regression 어떻게 짜집기 조합하는지에 따라 수만가지 논문이 양산되는게 현 AI 흐름입니다.

읽은 논문만 300편이 넘어가는데 읽다보면 종종 권태로움이 느껴질정도로 MLP의 조잡한 변형인것이 점차 느껴질정도입니다. AI의 본질적 철학은 보편적이면서도 어떤환경과 문제에도 유연한 우월한 지능이죠. 인간처럼요. 단지 우월한 기능이 있다해서 우리는 아직 AI라 하고 싶지는 않겠죠.

딥러닝개념은 적어도 보편적 비선형 모델 피팅이라는 진보를 이루어낸것은 인정할만한 사건입니다. 다만 문제는 항상 데이터에 너무 의존되는 딥러닝 구조의 한계역시 동시에 trade off로 발생합니다. 현대 딥러닝 패러다임속의 AI는 딥러닝 구조를 가지는한 절대 데이터라는 환경의 취약성에서 벗어날수 없습니다.

Few shot 같은 메타 러닝은 사실 말장난에 가깝죠. 메타러닝으로 학습 생산성을 높였을뿐 단어가 주는 오해가 대중을 호도하고 있습니다. 적은데이터 만으로 보편적으로 좋은 성능을 주는 딥러닝 구조는 없습니다. 단, 데이터가 상당히 뚜렷한 경향을 주지않는한. 너무나 뚜련한 경량을 가진 데이터가 있다면 굳이 딥러닝이 아니어도 레거시 ML로 오히려 더 좋은 피팅이 될꺼구요.

프랑켄슈타인처럼 각종 레이어와 feature 유닛들의 짜집기로 되도않는 sophisticated 한 멍청한 모델들로 논문이 도배되고 있습니다. 다들 자기 모델이 다른 모델보다 성능이 좋다고 하며 논문이 마무리되는데 본인이 구축한 데이터 환경만 조금이라도 벗어나면 병신이 되는 모델일뿐입니다.

이런걸 아예 앙상블이라고 갖잖은 용어로 있어보이게 설명하고 있는데 본질적 수학구조를 보면 그냥 이모델 저모델 섞어서 모델블랜딩으로 대충 과적합이 누그러지는 효과인거고 대단한 기법도 아닙니다. 왜 이런 변태적인 방식으로 계속 엉뚱한 진화만 되냐면 아직 아무도 딥러닝이 아닌 새로운 AI 패러다임을 제시하고 있지 못하고 있기때문에 데이터편향의 늪에서 영원히 허우적되고있고 이것을 잔기교로 눈가림하고자 별 잡스런 모델 잡종교배 블랜딩이 되고 있는겁니다.

마치 다세포 동물이 막 출현하던 지금은 거의 멸종한 선캄브리아기의 괴물같은 생명체들이 다양하게 난립하는 것과 비슷합니다. 언젠가 육지로 올라와 파충류나 포유류처럼 보다 고등한 방식으로 진화된 AI가 출현하기 전까진 그저 지금은 다 멸종한 기괴한 몬스터들의 향연이 될것입니다. 한때 휴리스틱 알고리즘이 AI라고 광이 팔릴때가 있었듯 (그뒤 바로 암흑기왔죠) 딥러닝도 그러한 취급을 받게되면서 기술은 다시 암흑기가 머지 않았다고 봅니다.

우리가 바라는 AI는 어떤 인종이 어떤 나라에서 태어나든 어떠한 언어도 배울수 있는 인간같은 지능을 AI라 부르고 싶지 학습한 데이터에만 의존하는 그환경만 잘 기능적으로 맞추는 (GPT계열도 사실 그런 한계속에 있음) 것을 AI라 어직 칭하고 싶지믄 않을겁니다. 양자컴이 개발되면 달라질수 있겠지만, 개인관점에서는 인간의 뇌와 같은 유기물로 된 반도체기반의 AI알고리즘정도는 나와야 비로소 생명체의 지능과같은 단순하면서 우아하고 보편적인 AI가 출현할것이라 봅니다. 뇌과학에서는 이러한 지능의 보편적인특성과 유연함이 신경망의 가소성에서 온다고 하는데 현대 무기물기반 트랜지스터로는 전혀 구현이 불가능 하다고 합니다. 딥러닝 기반의 현애 AI는 분명 한계가 있는건 맞다고 생각합니다.

역시 내가 줄기차게 주장해오던 내용을 정리해놓으셨는데,

작성된 곳이 하필 험한 욕이 돌아다니고 전문가의 견해를 평가절하하는 사람들이 모여있는 모 커뮤니티인 탓에 표현이 격한 것은 미리 양해를 구한다.

반은 맞고 반은 틀린듯. 아무 수학적 깊이 없이 모델 배합하고 적당히 썰풀어서 (사람은 비디오를 볼때 ~~한다. 이걸 구조로 체화시켰다! ㅍㅌㅊ? 이런 류) 탑티어 붙이는 연구도 많지만 (특히 중국대학쪽 페이퍼들), OOD나 generalization 이슈, continual learning 이슈를 진지하게 접근해서 푸는 방향도 많음. 전형적으로 잘 읽히는 중국페이퍼들만 ㅈㄴ읽고 현타온 사람 글 같음 ㅋㅋㅋ
한줄요약 – 인간의 뇌와같은 유기물을 사용한 반도체 기반의 ai알고리즘이 나오기 전까진 AI는 조잡한 연구일 뿐이다. // 하나는 알고 둘은 모르는 사람이 쓴거같네. 이 논리대로라면 30년전 삐삐 10년전 피쳐폰 쓰던얘들은 멍청이냐?? 스마트폰 놔두고 그런 조잡한거 쓰게
ㅋㅋ 현대 머신러닝 기술들이 그냥 전부 MLP의 조잡한 변형일 뿐이라는 게 헛소리도 이런 헛소리가 없넹ㅋㅋ
애초에 머신러닝 학계에서 말하는 ai는 뭔 사람처럼 생각하는 뇌인지과학 측면에서의 ai가 아니라 단순히 원하는 task를 사람만큼, 혹은 사람보다 잘 해줄 function을 approximation해주는 역할로 쓰이는데 갑자기 무슨 머신러닝이 학습시키는 ai는 진짜 ai가 아니라는 개소리를 하고 있냐ㅋㅋ
- 논문을 얼마나 읽어봤는진 모르겠는데 적어도 근본기술이라고 할 수 있는 residual connection, attention mechanism 등 논문을 존나 깊게 들여봤으면 저런 소리가 과연 나올지 모르겠네. 논문 300편 읽었다는 걸 뭔 자랑이라고 적어놨는지, 300편 동안 좋은 논문을 하나도 못 읽었다는 게 본인 누워서 침뱉기라는 걸 알았으면..
  말한 사람이 누군진 모르겠는데, 학계에서 이 분야에 통달한 대가가 저런 말해도 반박 엄청 들어올텐데 그냥 박사1이 저런 말하는거면 참 가소로울 듯
AI처음 나올때부터 인간지능 연구하던 사람들이 늘 얘기하던 레파토리임

4번째 댓글 (& 4-1번째 댓글) 쓴 분이 언급한 ‘근본기술’이 정말 ‘근본기술’인지는 잘 모르겠다.

기본적으로 머신러닝이라고 요새 이름이 붙은 계산과학에서 입력한 데이터 기반으로 Fit을 찾아주는 계열의 모델은 그걸 NN기반의 딥러닝으로 Factor analysis를 하겠다에서 Attention으로 해 보겠다고 트렌드가 바뀌고 있는 것은 맞다.

그러나, NN을 적층형으로 쌓아올리건, (Semi-Supervised?) Clustering 기반의 Attention으로 쌓아올리건, 궁극적으로는 Factor analysis를 좀 더 효율적으로 하겠다는 작업에 지나지 않는다. 공학도들 상당수가 바닥에 깔린 수학, 통계학을 모르는 탓에 Factor analysis 라는 개념에 대해서는 희미한 이해만 갖고 있고, 새로운 이름이 붙은 계산법이 나오면 그 계산법이 ‘더 좋다’, ‘더 안 좋다’ 같은 단순한 판단만 하더라.

저 윗분이 말하는 ‘학계에서 이 분야에 통달한 대가가 저런 말해도 반박 엄청~’ 이라는 문장에도 딴지를 걸고 싶은게, (물론 논문 300편 읽은게 자랑은 아니라는 점에는 매우 공감한다) 이런 계산의 바닥에 있는 수학, 통계학 개념과 모델들을 이해하고 나면, 새로운 계산법이라고 나온 것들이 결국에는 기존의 수학, 통계학을 다른 관점에서 풀어내는 것이라는 걸 알아야 우리끼리는 ‘대가’, 혹은 ‘학계에서 이 분야에 통달한 대가’ 라고 불러준다.

그리고, 의외로 그런 훈련이 잘 된 사람은 한국에 별로 없어서 그렇지 영·미권 학회에 많이 있다. 굳이 박사생이라고 해서 그런 훈련이 안 된 것도 아니고, 최소한 그런 시야를 갖춰야 영·미권 주요대학 교수 자리를 노릴 수 있다. 거기에 인종, 국적, 연령, 외모, 친화성 등등의 온갖 요소가 개입되어서 교수 임용이 이뤄지는걸 생각해보면, 그런 엄청난 논문을 안 갖고 있다는 이유로 ‘대가’ 혹은 ‘통달한’ 이라는 표현의 대상이 아니라고 생각하지는 않는다.

하물며 Attention mechanism 처럼 논리가 뻔한 경우에는 더더욱 기존 NN 적층 기반의 Factor analysis와 갖고 있는 본질적인 구조적 문제는 크게 달라진 것이 없기 때문이다.

저런 종류의 새로운 단어, 새로운 계산법 하나를 더 알면 엄청난 전문가가 되는게 아니라, 밑바닥에 있는 수학, 통계학을 알고, 그 틀에서 새로운 계산법이 어떻게 변형을 해서 무슨 목적을 달성하고 있는지를 볼 수 있어야 진짜 전문가가 된다.

저쪽이 대부분 CS 전공자들일테니까, 개발 언어라는 도구를 이용해 유비추리를 할 수 있도록 해 주면, 개발 언어를 C로 한다, Java로 한다, Python으로 한다, 요즘 핫 하다는 GoLang 이하의 함수형 언어로 한다….난 요즘 더 핫 하다는 다른 언어 아는데…. 그 언어가 더 우월하니 그걸 아는 내가 너보다 더 우울한 개발자다 그러면, 아마 C로 모든 로직을 다 구현할 수 있는 40대, 50대 중년 개발자들이 코 웃음을 칠 것이다.

단지 새 언어는 기존 언어로 작업하기 너무 귀찮으니까, 좀 더 특정 목적을 달성할 수 있도록 ‘편하게’ 해 준 것이다. 위의 ‘근본기술’이라고 불리는 계산법들도 딥러닝이 갖고 있는 문제를 수정·보완하기 위해 나온 변형일 뿐이다.

AI 대학원을 가겠다?

누가 AI대학원을 가는게 어떻냐고 질문하면, 졸업하고 난 다음에 뭐 하고 싶냐, 근데 세상은 어떻게 되어 있을 것 같냐고 묻고 싶다.

납득하기 쉽도록 예시를 하나 들어주면, 대략 5년 전 쯤에 마케팅 박사 졸업반인데, 학교 트렌트가 바뀌어서 학교를 옮겨야 되어 상담하고 싶다는 연락이 왔다. 원래 국내 XX대학을 졸업하고, 직장에서 마케팅 업무를 했는데, 박사 학위가 필요한 것 같아서 5년 쯤 전에 학교로 돌아갔단다. 근데, 졸업할 무렵이 되니 갑자기 ‘인공지능’, ‘빅데이터’ 이런 바람이 불고 있고, 자기는 코딩도 하나도 못하고, 내가 계속 주장하는 수학, 통계학은 더더욱 모르겠는데, 그래서 자기처럼 ‘글자로 논문쓰는’ 곳으로 대학을 옮기려고 한단다.

왜 아무런 관계가 없는 나한테 상담하냐고 되물어보니, 그 옮기려는 대학에서도 ‘최소한 R로 코드 돌릴 수 있어야 된다고 그래서, 1일 과외 받고 대충 하는 흉내만 내면 되지 않겠냐’는 생각에 나한테 연락을 했단다.

내 성격을 알겠지만, 당연히 과외를 해 준 적도 없고, 다시 그런 분을 만날 일도 없다. 지금 AI대학원을 가겠다는데 기초적인 수학, 통계학 훈련이 전혀 없이, CS 쪽의 코딩 역량만 조금 갖고 있는 상태에서 굳이 수학, 통계학 안 배우고 남의 논문 적당히 잘 베껴서 졸업한다고 해 보자.

아마 국내 공대에서 운영하는 AI대학원들 사정이 다 똑같을텐데, 정부가 예산을 이용해 무슨무슨 프로젝트를 한다며 대학원들 지원금을 제공해주고, 교수들은 거기에 맞춰 프로젝트들을 딴 다음, 아마 대학원 생들을 굴릴 것이다. 결국 수학, 통계학 안 배워도 프로젝트하며 주워담은 코드들로 어찌어찌 박사 논문은 내겠지.

자, 그렇게 5년을 보내고나면 세상은 어떻게 바뀌어 있을까?

저 위의 마케팅 박사 졸업반이 어쩌면 차라리 더 나을 수도 있는게, 1-2년 후에 트렌드가 바뀌었다면 박사 학위 받고도 취직이 안 되는 상황이 발생했었을 수도 있다. AI대학원 뿐만 아니라, 세상의 많은 일들이 ‘Outdated(구식)’인데 시대 상황에 맞춰 변형을 못하면 도태된다.

Factor analysis를 제대로 배우고, Clustering을 제대로 배운 사람이면, 둘을 결합하는 계산법으로 Neural Net을 쓴 DNN 모델과 Clutering을 좀 더 Supervised learning 스타일로 쓴 Attention mechanism 간의 격차를 뛰어넘는데 그렇게 오랜 시간이 걸리지 않을 것이다.

이건 내가 논문을 시뮬레이션으로 쓰다가 머신러닝이라는 주제를 며칠만에 다 이해했던 것과 같은 맥락이다. 둘의 차이는 10억개의 데이터를 컴퓨터로 생성하느냐, 10억개의 DB 데이터를 활용하느냐의 차이 밖에 없었기 때문이다. 추가로 DB라는 것이 어떻게 돌아가는지를 좀 더 배워야하기는 했는데, 졸지에 SQL query 짜는 것부터 배우며 N차원 DB구조를 몰라 초보 취급 받고 무시당하던 1주일을 보내고 난 다음에 난 충분히 1사람 몫을 하는 Data Scientist로 자리매김 할 수 있었다.

굳이 해외대학원으로 유학을 가라고 하고 싶진 않다. 그런데, 살아남으려면 기초 지식인 수학, 통계학 훈련을 탄탄히 하라고 하고 싶다. 저런 커뮤니티에서 ‘근본기술’이라는 단어에 현혹되지 말고.

+2024년 3월 5일 추가

스위스에서 AI/Data Science 대학원을 운영한지 올 가을이면 만 3년이 됩니다. 그 이전부터 여러 방식으로 한국 학생들을 교육했던 경험을 포함해 대략 6년간 경험한 한국 상황을 놓고 볼 때, 한국 학생들 대부분이 수학적인 기초가 매우 부족한 상태로 학위를 받고, 직장에 취직해서, 회사의 성장에는 전혀 도움이 되지 않는 상태가 반복되고 있다는 것을 이제는 자신을 갖고 말할 수 있습니다.

모 대기업의 AI팀으로 팀을 옮긴 한 학생이 과거 프로젝트들 리스트를 보고 “안 되는 건데 왜 처음부터 막지 않았냐?”고 팀 내에서 질문을 해 봤다고 합니다. 배워서 눈이 뜨이니까 현실적으로 가능한 프로젝트인지를 단번에 파악할 수 있는 능력이 생긴 것이겠죠.

한국어로 나가는 마지막 SIAI 공지글에도 반복적으로 썼던 내용입니다만, 저는 한국에서 제대로 된 교육이 이뤄지고, 그 학생들이 기업의 가치 증진에 도움이 되는 사건을 보기는 어려울 것이라고 생각합니다. 대학들의 교육 수준이 낮은 것만이 문제가 아니라, 기업들도 고급 인재를 다룰 수 있는 역량이 없고, 그걸 바탕으로 고급 상품을 만들어 낼 역량이 없기 때문입니다.

저출산, 고령화로 학교 교육이 망가지고 있는 것이 아니라, 교육 수준이 낮고, 교육의 효과를 발휘할 수 있는 인프라가 갖춰져 있지 않은 탓에 교육이 망가지고 있다는 결론을 내렸습니다. 열정은 넘치지만 국내의 부족한 인프라 때문에 한계를 겪고 있는 학생들의 꿈이 꺾이지 않으면 좋겠습니다.