데이터 사이언스랑 경제학이랑 무슨 관련이 있나요?

19
pabii research

MBA AI/BigData 학생들 대상으로 1,2 term (국내식 1학기)를

이라는 수업들로 운영하면서, 각 과목별 8주 수업의 기말고사들을 공개했었다.

국내 모 커뮤니티에서 “학부 계량경제학 가르치는 주제에 여태 인공지능 전문가인척 했다”며 온갖 비난을 늘어놨더라.

 

그런 커뮤니티를 보곤, 기초지식 없이 남들 말에 휩쓸리는 경영 & 공학 출신인 SIAI 학생들 몇 명이 통계학과 나왔으면 식은 죽 먹기 수준인데,

MBA AI/BigData 말고 자기는 역시 MSc Data Science (현 BSc DS Top-up, 학부 고학년 편입과정) 을 쉽게 뚝딱 할 수 있다~ 고 자만심에 빠지더라.

상세정보 없이 껍데기만 보고 판단하는 커뮤니티의 할 일 없는 분들이나, 그런 커뮤니티에 휘둘리는 학생들이나…

 

또 다른 경우로는, DS 공부할려면 그냥 계량경제학 공부하면 되는가보다라고 생각하고 교과서를 여러 권 사던 학생들도 있었는데,

이런 왜곡된 이해를 가지던 학생들이 3rd term에 COM502: Machine Learning, Business Case 수업들 (BUS501, BUS502..)을 들으며 내 의도를 깨닫더라.

왜 수학, 통계학 강조한 줄 알겠다, 왜 처음에 계량경제학 가르쳤는지 알겠다

내가 계량경제학을 초반에 배치한게, 일단 Estimation theory 훈련이 “제대로” 되어야 ML, DL, RL 같은 응용 수업들을 따라올 수 있다는걸

개인적인 경험이나 같이 공부했던 친구들 경험을 통해서, 가르치면서 본 학생들의 성과물을 통해서도, 직간접적으로 겪어봤기 때문이었다.

(Source: TowardsDataScience.com)

 

학부 경영 상담 Cont’d

지원자 게시판에 몇 차례 글을 남긴 어느 경영학과 출신의 글을 소개했었는데,

이 분이 자기가 갈려고 하는 폴란드의 어느 대학이 갖춘 경제학과 산하의 Data Science 석사 프로그램의 커리큘럼을 소개해주실 때부터

이미 제대로 고민을 담은 교수들이 저 프로그램을 만들었다는걸 한 눈에 깨달을 수 있었는데,

해당 대학원을 졸업하고 현지 영국계 제약사 데이터 과학자로 취직한 사람의 표현이라고 전달 받은 내용을 보니,

내 예상이 딱 맞아들어간다는걸 알 수 있었다.

 

교수님들 마인드 셋이 수식 백그라운드를 제대로 이해 못하면 실무에서 모델(을) 제대로 못하기 때문에 심화 계량경제 수업이 많은 것 같다

내가 유학가서 학위과정 밟는 내내 온 몸으로 느꼈던 포인트다.

수식을 아무리 열심히 배우고 익혀봐야, 그저 책 속의 지식이다.

외워서 점수만 잘 나오면 되는 한국식 교육의 맹점이 여기에 있다.

 

날 욕하는 어느 분이 페북에 써 놓은 댓글을 우연찮게 본 적이 있었는데

수학은 여태 공부했던 과목 중에 제일 가성비 안 나오는 과목이다

라고, 한국인이니까 이해는 하지만 글로벌 시장에서 알면 낯 부끄러워지는 이야기를 당당하게 하면서,

수학 기초 교육을 강조하는 내 관점이 틀렸다고 힐난하고 있더라. (그 댓글에 동조하던 개발자들 대댓글 많이 봤다.)

 

OLS가 BLUE가 아닐 때 (F)GLS를 이용하고, MLE를 이용하고, IVE를 이용하고… 여기까지라면 책 속의 지식에 불과하다.

위의 “수학이 제일 가성비 안 나오는…” 이라는 표현이 나오는 것은 당연하다고 생각한다. 인정한다.

실제로 국내 거의 대부분의 교육이 이렇다는 것도 안다.

 

그럼 수학이, 통계학이, 아니 교과서 지식이 가성비가 나오려면 어떻게 해야되나?

회사 건물 1층에 입점한 카페의 매출액 예측을 고민한다고 했을 때, 단순히 “인공지능 모델”에 넣는다는 개발자 같은 통계문맹 소리 말고,

문제의 원인이 우리 회사 사람들 출퇴근 시간이 랜덤하지 않기 때문에, 사 먹는 커피가 랜덤하지 않기 때문에, 직급에 따라 다르기 때문에 등등으로

원인에 따라서 각각이 맞아들어가는 모델, 각각의 원인 가설이 (F)GLS, MLE, IVE 로 계산했을 때 OLS보다 더 BLUE에 가까워진다는 걸 깨닫는 수업을 들어야,

OLS vs. (F)GLS가 우리 회사 사람들 출퇴근 시간이 랜덤한지 아닌지가 매출액 모델에 영향을 주는지 검증하는 통계적 테스트고,

OLS vs. MLE가 우리 회사 사람들이 사 먹는 커피가 랜덤한지 아닌지가 매출액 모델에 영향을 주는지 검증하는 통계적 테스트고,

OLS vs. IVE가 우리 회사 사람들의 직급이 (그래서 연봉, 업무 강도 등등이) 다르기 때문에 위의 결과가 나타난다는걸 2단 검증할 수 있는 통계 테스트라는걸

즉, 통계학이 그냥 수학 증명만 열심히 하는 과목 or 평균, 분산만 열심히 계산하는 과목이 아니라,

현실의 고민을 학문적으로 납득이 가능하도록 해석하는데 쓰는 도구라는걸 깨닫게 된다.

 

뇌피셜을 기초적인 수리통계학 모델로 검증할 수 있는 위의 훈련이 갖춰지게되면,

무조건 Machine Learning에 집어넣으면 다 됩니다, 안 되면 Deep Learning에 집어넣으면 됩니다 같은 못 배운 티 나는 관점이 아니라,

진짜 “데이터를 활용할 줄 아는” Data Scientist가 되는 시야가 뜨이게 된다.

우리 학생들이 이런 마인드를 갖추고, 그런 티가 나는 논문을 자기 분야에 적용할 수만 있어도 MBA AI/BigData 교육은 대성공이라고 생각한다.

 

이걸 어떻게든 깨달아라고 내 머리 속을 쥐어짜내서 학부 2학년 수준으로 내려 만든 과목이,

저 위에 언급한 우리 MBA AI/BigData의 기초 과목들, STA502: Math & Stat for MBA I, II 과목들이다.

유사한 관점으로, 경제학 주제를 섞은게 STA501: Data-based Decision Making, 계산과학 기초를 섞은게 COM501: Scientific Programming 이다.

[embedyt] https://www.youtube.com/watch?v=T24j8XTcpe0[/embedyt]

 

왜 데이터 사이언스에 느닷없이 경제학이냐?

경제학이, 특히 계량경제학이라는 과목이, 리브레위키의 계량경제학 소개글을 따라가보면 어느 정도 공감이 되겠지만,

수학과 통계학을 적절하게 활용해서 현실의 데이터들에 적용하고, 문제를 해결하기 위해 100년의 고민이 담긴 학문이다.

즉, Data Science 공부하는 사람들이 하고 싶어하는 고민들을 실제로 저 분과학문이 지난 100년간 해 왔다.

(물론, “인공지능 모델”에 탁~ 끼워넣으면 착~ 하고 튀어나오는 그런 기계 없냐고 찾는 무지성들은 납득을 못하겠지만…)

Econometrics is the original data science
(계량경제학이 데이터 사이언스의 원형이다)

 

Data Science라는 학문을 배울 때, 멋 모르는 애들은 그저 Deep Learning을 알려주세요 코드주세요라고 떠들고 다니겠지만,

밑바탕에 있는 통계학 훈련, Estimation Theory 훈련이 제대로 되어야 DS의 많은 도구들을 제대로 활용할 수 있게 된다.

 

근데, 그런 Estimation Theory 훈련을 제일 일상의 현실에 적용해가면서 배울 수 있는 학문이,

어떤 직관으로 어떻게 모델을 구조화 할 수 있는지 계속 생각하면서 현실과 부딪히는 경험을 쌓을 수 있는 학문이,

적어도 내가 알고 있는 학문의 영역 중에서는 계량경제학 밖에 없다.

내가 모든 학문의 전문가는 커녕 1개 학문 전문가도 아니지만, 아마 나보다 지식의 깊이와 외연이 더 넓은 분들의 의견도 크게 다르지 않을 것이다.

 

아마 저 위의 폴란드 유학 간다는 그 친구도, 경제학과에서 Data Science 석사 과정을 만드는게 신기할 수도 있겠지만,

나같은 훈련을 받은 사람들 입장에서는 그렇게 놀라운 상황이 아니다.

계산 방법론이라는 점만 놓고보면, AI라고 불리는 전공에서 쓰는 방법론들을 경제학에서 이미 다 배우니까.

단지 공학에서 몇몇 주제들에 쓰는 것처럼 (자연어 처리, 이미지 인식 등등) 적용하질 않고 있을 뿐이다.

되려 사회과학 데이터를 다루는 영역에서는 더 많은 방법론적인 훈련을 받고 있다는 걸 저 위의 폴란드 어느 대학 사례에서 확인할 수 있을 것이다.

사실 어지간한 Quantitative 학문의 대학원을 가면, 정상적으로 운영되는 대학원이라면, 다들 배우고 있다.

굳이 이게 특정 전공에 국한되는 수학 방법론이 아니니까.

 

내 이야기는 수백번 들었다고? 2021년 노벨경제학상 수상자인 Joshua Angrist의 이야기이기도 하다. (위의 YouTube 영상 참조)

링크건 이 글 첫머리에 나오다시피, 계량경제학 공부했으면 보통 처음 ML을 배울 때, “이거 다 아는거 아닌가?” 라는 생각을 한다.

주변의 경제학도들의 공통적인 반응이다. “왜 단순 OLS하고 있냐? OLS로 배웠던 그게 인공지능이야? 에이 진짜?”

 

그럼 반대로 공학에서는 제대로 Estimation Theory를 공부하는가?

즉, 부분집합의 방향이 어느 쪽으로 작동하는가라는 질문에,

해외 유명 대학의 공학 박사들은 나와 같진 않아도 내 논리를 따라올 수 있는 레벨로는 배우던데,

한국 공대는 Estimation Theory의 이해도 수준이 공대 박사가 (잘쳐줘야) 경제학과 학부 2학년 수준에 불과하다.

아니, 국내 공대 박사들 99.9%가 실험실에서 실험하고, 교수들 프로젝트나 해주다가 박사 학위를 받았을 뿐,

통계학 훈련은 학부 1학년 때 배운 공학수학의 통계 파트가 전부더라.

그 수준은 경제학과의 경제통계 수준이거나, 심하게는 심리통계, 사회통계, 경영통계 수준도 안 되는 경우도 많다.

즉, 공대 (&의대)가 이과라고 문과 무시하는데, 정작 문과에서 수학 대충하는 전공들보다 통계 못할 확률이 높다.

 

말을 바꾸면, 국내 공대는 Estimation Theory라는 기초중에 기초를 모르면서 자기네가 인공지능 전문가라고 우기고 있고,

필수 지식인 기초 통계학 훈련을 탄탄하게 받았을 통계학과, 그 옆에서 어깨너머로 쓰는 경제학과 출신들이 실제로는 더 필요한 훈련이 잘 된 상태라는거다.

학문에서 서열이 이렇게 나뉜걸 뻔히 알고 있는데, 이것저것 다 찍어 맛 보기를 해 본 내 입장에서 가장 적합한 걸 고르는게 상식적인 선택이 아닐까?

석사 경제학 이후로 노트 한번 다시 열어본 적이 없었던 계량경제학 주제들을,

이번에 DS 대학원 커리큘럼 짜면서 거의 10년만에 처음 열어봤다는 표현이 어떻게 받아들여질려나?

 

돈 내는 학생들이 학위 종이 쪼가리만 받겠다면 어느 전공 출신이 어떻게 가르치건 상관없겠지만,

진짜 지식을 배우려면 그에 맞춰서 최적 교육을 해 줘야지.

폴란드의 저 대학은 그런 선택을 교수진들 그룹이 똘똘 뭉쳐서 굉장히 효율적으로 만들어 내고 있고,

한국은?

 

경제학은 일부분일 뿐이다

1st, 2nd term의 몇몇 수업에서만 계량경제학을 다룰 뿐, 사실 프로그램 후반부로 들어가면 Data Science라고 알려진 학문,

즉 Computational Science를 활용하는 다양한 학문의 도구들을 갖고 온다.

MBA라는 이름답게 Quant Marketing이나 Finance에서 활용하는 방식으로 만든 시험 문제들도 있고,

정치, 특히 선거에서 Data Science를 활용하는 예제, Factor 기반으로 현실 주제를 풀어나가는 문제,

법적인 이슈를 Data Science와 Law & Economics 관점으로 푸는 문제들도 있다.

 

그 밑바탕에 Machine Learning, Deep Learning, Reinforcement Learning이라고 일반에 알려진,

Non-linear pattern matching, Graph-based non-linear pattern matching, Dynamic optimization 같은 주제들은

딱히 어느 “과”에 속하기 보다는 수학/통계학을 활용하는 다양한 전공들이 빌려쓰는 주제들이다.

 

자연대에는 암호학, 물리학을 비롯해서 해양학, 기후학 등등의 세부 학문들이 모인 서울대의 계산과학 연계전공이 있다고 소개한 적도 있고,

(“국내에서 유일하게 제대로 Data Science 를 가르치는 학부” 참조)

공대에서는 기계, 시스템, 도시, 산업 공학 등등에서 적극적으로 활용하고 있는걸 (한국 아닌 나라에서) 여러차례 봤었다.

경제학으로 넘어오면, 거시경제학 모델링 자체가 시뮬레이션을 필수로 안고 가기 때문에, 대학원 레벨에선 위의 방법론을 안 배울 수가 없다.

(안 배우는 학교에서 경제학 석,박 했으면 그 학교 레벨에 대해서 의구심을 던질 수 밖에 없다.)

 

Finance에서 Term-structure 하시는 분이 Dynamic optimization (공대에서 Reinforcement Learning이라고 부르는)을

Non-linear fitting하는데 좀 더 효율적인 계산을 위해서 DNN 구조를 Back-propagation으로 시도하는걸 본 적도 있다.

Finance 하는 분들 대부분이 계량경제학에서도 시계열 주제에 특화되어서 많은 공부를 하신 분들이다.

 

말을 바꾸면, 경제학의 계량경제학은 Estimation Theory를 배우는 도구로 활용하고,

현실 적용을 위한 실무 모델링에 쓰는 아이디어를 배우는 사고 훈련용으로 활용하는게

Data Science라는 학문을 가르치는데 매우 유용한 활용법이라는걸,

노벨경제학상 수상자 레벨이 아니라, 2류(?)국가의 국가대표급 경제학자들이 모인 학교라면 어지간해서는 다 파악할 수 있었다는걸,

폴란드의 사례가 명백하게 보여주고 있다.

(폴란드한테 2류라는 표현써서 정말 미안하다. 사실은 한국이 2류…아니 3류인거 같은데.)

 

(국내 대학들 말고) 공학에서 적극적으로 활용하는 방법론들은 그런 Estimation theory 훈련이 된 상태에서나 현실에 의미가 있다는걸

우리보다 후진국(?)이라고 남들이 생각할만한 나라에서 벌써 깨닫고 현실에 적용하고 있다.

우리나라는?

 

나가며 – 한국 vs. 폴란드

폴란드가 우리나라보다 국가 이미지, 국제사회에서의 서열, 나라의 기술력 등등 거의 모든 면에서 열위에 있는 나라일텐데,

저기는 멀쩡한 Data Science 프로그램이 돌아가는데, 한국은 이게 무슨 절망적인 상황인가?

 

빅데이터 이름을 누가 가져가느냐로 컴공 교수들이랑 통계학과 교수들이 총장실에서 치고받고 싸웠다는,

이런 추하고 낯 뜨거워지는 이야기를 들어야되는 나라가 내 조국이다.

비슷한 사건이 지난 1-2년간 여러 대학에서 다양한 전공 교수들간에 수시로 벌어지고 있다는 이야기를 듣는다.

공대가 권력을 쥔 어느 대학의 경제학 출신 교수님의 분노의 일갈성으로 “MLE도 모르는 새X들이 뭔 재주로 데이터 어쩌고 전공을 공대가 한다는거야”라는 것도 들은 적이 있다.

수 많은 전공에서 나눠쓰고 있는 방법론인데, 서울대 계산과학 연계전공처럼 힘을 모아도 시원찮을 판국에 조폭처럼 나와바리 싸움질이니…

 

연구하라고 대학 만들고 지원해주고 있는데, 허접 교육하는 전공 만들어서 정부 지원금 빼먹으려고 티격태격 싸우는 꼴이다.

거기다 한국어로 Data Science 공부한다는 사람 모임에는 “수학이 제일 가성비 안 나오는…”에 옹호하는 댓글이 우르르 달린다.

“저는 수학을 어떻게 쓰는지 전혀 알지 못하는 문맹이나 다름없구요…”, “저도요”, “저도요”, “저도요”… 라는 수준 아닌가?

도대체 대학에서는 어떻게 가르치고 있고, 나라 전체적인 지식 이해도가 어떤 수준인건가?

 

정부가 아까운 세금으로 대학을 지원해주는건, 특히 DS라는 신규 학문 전공에 추가로 지원금을 마련해주는건,

미국처럼 큰 시장이 없어서 자생하지 못할까봐, 한푼한푼의 세금을 모아 나라의 미래를 위해 조금씩 희생하자는 뜻일 것이다.

그러나, 그 세금을 집행하는 공무원들이 장님이고, 그 세금을 받아먹는 교수들이 무능력한 사기꾼이면,

우리의 아까운 세금은 무능력을 배불리기만 할 뿐이다.

 

고대 전쟁사 중에, 적국 성벽을 지은 건축업자가 부자가 되었다는 소문이 돌면,

돈을 많이 떼먹었을 것이라는 확신, 그 성벽은 부실공사일 것이라는 확신, 전쟁 승리에 대한 확신을 가진다는 이야기를 볼 수가 있다.

한국의 데이터 사이언스 업계라는 곳은, be it 대학 or 학원 or 기업, 그렇게 정부 세금이나 빼먹으며 기생하고,

정작 나라의 미래를 위해 제대로 된 DS교육 프로그램을 만들어내는데는 완벽하게 실패했다.

 

완벽한 실패라는 표현에 동의할 수 없다고?

우리 SIAI 졸업생Johns Hopkins의 MSDS, 위의 폴란드 대학 MSDS 문제를 풀 수 있는 확률 (각각 공대, 경제학 산하의 석사 프로그램들),

그리고 한국 공대에서 만든 MSDS 졸업생이 같은 문제를 풀 수 있는 확률, 둘을 비교하면 어느 쪽이 더 높을까?

답은 읽는 독자 분들이 더 잘 알 것이다. 한쪽은 1에 수렴, 한쪽은 0에 수렴한다는 것을.

한국 공대에서 만든 MSDS 졸업생들이 코드 베껴 붙이기는 우리 SIAI 학생들보다 월등하게 잘 하겠지.

 

학자의 길을 오래 전에 포기한 무능한 사업가가 아무런 외부 지원없이 혼자 독박쓰고 짬내서, 그것도 국내의 악성 규제 때문에 해외까지 가서야 겨우 만든 학위 프로그램의 졸업생이,

국민 세금을 수백, 수천억을 당겨쓰고 몇 십명의 교수진을 들이대서 만든 프로그램의 졸업생과

글로벌 스탠다드 기준으로 봤을 때, 비교가 불가능한 실력을 갖춘다는게 말이되는 상황인가?

어느 대통령 후보 연설의 “별들 달고 꺼드럭거리기만 했단 말입니까?”가 생각난다고 해도 될까?

 

박지원의 열하일기는 17세기 조선이라는 나라가 인재를 제대로 못 쓰는데에 대한 통탄의 염을 표하고 있다.

그 땅에서 같은 핏줄의 후손들이 모여사는 21세기 대한민국도 상황은 별반 다르지 않은 것 같다.

이렇게 밥그릇 싸움이나 하며 밥그릇을 깨먹는 나라가 어떻게 한강의 기적을 만들어냈는지 의문이다.

Similar Posts