데이터 사이언스 활용에 타 학문 이론 지식이 필수인 이유

pabii research

국내 귀국해서 Data Science 교육, 활용 이런 이야기가 도는 곳들을 몇 군데 훑어보고 너무 황당한 마음에 DS 교육을 시작한지 곧 6년이 다 되어 간다.

코딩 부트캠프 수준의 교육만 받으면 Data Science 전문가가 될 수 있다는 주장들이 황당하기 그지 없었고,

통계학을 현장에 쓰기 위해 고민했던 각종 학문들 (ex. 계산통계학, 사회통계학, 계량경제학 등)에 대한 지식은 아예 1g도 없는 교육들이 판을 치는데,

그런 IT학원들의 ‘코딩이 중요하다’는 홍보에 속은 기업들이 DB만 잘 만들고 ‘딥러닝’ 코드만 복붙하면 다 되는 것처럼 날 찾아올 때 ‘이럴려고 공부했나’는 종류의 자괴감도 많이 느꼈다.

 

시간이 지나서 보니 모든 것을 자동화, 단순화 시킬 수 있다는 맹목적인 믿음을 가진 공대식 사고 방식이 그 근간에 깔려있었고,

그렇게 자동화 가능한 플랫폼이 되어야 인건비가 안 들어서 ‘사업화’가 되니 투자사들도 ‘확신은 없지만 다들 된다고 하는 거짓말’에 도박처럼 투자하며 휩쓸려 갔더라.

(아마 당신들이 생각하는 AI는 AI sprinkler system test 같은 자동화 시스템일텐데, 난 이런걸 그냥 단순한 기계 자동화라고 생각해서 AI라는데 동의할 수가 없다. 그냥 적외선 탐지기로 위치 추적하는 거잖아?)

매번 당신들과 AI는 아무런 관련이 없다고 주장하는 나는 그들에게 악마같은 존재, 혹은 이상한 사람이었을 것이다.

 

지난 몇 년간 공대 위주로 대학들의 AI전공, Data Science 전공들이 생겨났고, 역시 부트캠프와 같은 수준의 문제를 겪는 걸 보면서

3년쯤 전부터 국내 대학으로도 답이 없겠다는 생각에 대학을 직접 설립하는 무모한 도전에 발을 들이게 됐다.

이제 교육 결과물이 속속 드러나는 중인데, 뿌듯한 마음에 오늘 글을 쓰게 됐다.

 

글 쓰는 시점부터 대략 2주쯤 전 이야기다.

외교관이 꿈이라서 외무고시 준비한다는 어느 고시생이 우리 회사의 언론사 업무가 공부에 도움되는 것 같아서 지원하고 싶다길래

1차 시험인 과제 결과물을 받고, 2차로 간단하게 전화 면접을 봤다.

 

학부 시절에 난 Finance쪽 직장 찾겠다고 올인 했던 터라 금융시장 관련된 수업이 아닌 경제학 고학년 수업을 거의 들은게 없는데,

문득 외시 2차 과목 중 하나가 국제경제학이었던 기억이 나서, 그냥 어디선가 주워들은 헥셔-올린 이론을 갖다 붙여 면접 질문을 던져봤다.

학부 1학년 때 경제원론에서 배운 비교우위론이 국제 무역 시장에 적용되는 걸 설명하는데 쓰이는 이론이라는 기억만 있고,

솔직히 살면서 한번도 제대로 수업 시간에 배운 적이 없었던 이론이다.

 

근데, 뭐 학부 수준 교육하는데는 별 거 없다는 생각에

우리 SIAI의 학부 or MBA 수업에 배정해 놓은 과목에서 살짝 가르친다.

(위의 강의노트 스크린 샷에 나온 Revealed Comparative Advantage라는 부분 참조)

저걸 이론으로만 알고 있었는데, 교육 자료를 만들다보니까 데이터를 이용해서 IMF, World Bank 같은 곳에서 쓰더라.

좀 더 뒤져보니 한국은행이 매년 산업별로 요소생산성이라는걸 계산해서 발표하는 것도 봤다.

 

뭔가 저 지원자 분이 알고 있을만한 국제경제학 지식을 활용하는 질문을 던져야겠는데,

내가 뭐 제대로 국제경제학을 공부한 적도 없고, 비교우위론 이해한 걸로 헥셔-올린을 피상적으로 이해한 것 밖에 없는데다,

‘Data-based Decision Making’ 수업 자료 만들면서 이곳저곳 대충 훑어 봤던 기억 밖에 없어서

질문이 딱 떠오르질 않더라.

 

그러다 아 그렇지, 요즘 미-중 갈등으로 애들한테 기사 쓰라고 갈굼했었으니까 그걸 한번 연결해봐야겠다 생각이 들길래

면접 중에 질문을 이렇게 던졌다.

  • 헥셔-올린 가설을 이용해서 아래 상황을 설명
    • 미국은 금리를 계속 올려서 은행들은 무너지고 투자 받아서 크는 회사들은 다들 휘청거리는데 정작 노동시장이 너무 ‘Hot’해서 계속 금리를 더 올려야 된다고 주장하는 것
    • 중국은 글로벌 투자자들이 ex-China라며 다 빠져나가는 상황이 벌어지고, 청년 실업률은 20%가 넘는 상황에 직면한 것

(대답 못 하더라ㅋ 사실 대답을 들을 수 있을 거라고는 기대 안 했다. 내가 행시 출제 위원이면 저런거 시험 문제 낼 것 같은데 말이지 흠…)

 

원인은 미-중 갈등으로 미국은 잉여 자본, 중국은 잉여 노동력이 생겼기 때문이다. 자본이 넘쳐나니 수익성이 낮은 곳이라도 투자가 몰릴 수밖에 없고 마진이 줄어드니까 금융 기관들은 힘든데, 시장에, 최소한 제조기업들 쪽에서는 잉여 자본이 있으니까 그간 채용 안 하던 인력들을 추가 채용하는 제조업 기업들이 생겼다.

반대로 중국은 투자금이 다 빠져나가서 자국 제조업 기업들이 유휴상태에 들어가니까 실업률이 폭등했다.

경제학에서 L(노동), K(자본) 논리로 설명하는 Cobb-Douglas 함수와 헥셔-올린 모델을 갖고 오면 위의 상황이 간단한 프레임으로 설명된다.

진짜일까?

위의 링크는 이 글을 쓰기 하루 전인 7월 20일에 나온 논문이다.

논문 내용 모르고 쓴 사람들 이력만 찾아가는 3류 비평이 나올 것 같아 괜히 찜찜한데, (메세지가 아니라 메신저를 공격하는 수법… 한국에서 너무 자주 겪고 있다)

100보 양보해서 저자들이 학자의 양심을 팔아먹었다고 색안경을 끼고 볼려고해도, 중국인 저자들이 미국을 욕할려고 갖고 온 학문의 도구가 미국인들이 만든 이론이라는 점을 짚고 싶다.

이걸 Data Science 영역에서 다룰려면 당연하겠지만 Regression을 최소한 한번은 돌려봐야겠지?

한은이 제시한 요소생산성 데이터를 활용하고, World Bank에서 제공해준 ‘현시비교우위(Revealed Comparative Advantage)’를 자료로 쓰면

미-중 갈등이 양국 뿐만 아니라 무역 단절로 고생하는 다른 나라들의 산업 별로 어떤 영향을 미칠지 계산할 수 있다.

 

자세한 계산은 좀 더 훈련을 시키고 시간을 들여 보고서를 써야겠지만, 위의 단순 논리 설명 정도는 우리 수업 들은 학생들이면 누구나 할 수 있겠다 싶어서 한번 학생들한테 던져봤다.

 

저 글 완성한 학생한테 국내 대학 학부 동기들 보여주면 남이 대신 써 준 글 아니냐고 묻지 않겠냐고 농담했었는데,

우리 SIAI 방식으로 칭찬한거니까 혹시나 자존심에 상처 입지 않으셨으면 좋겠다ㅋ

 

데이터 사이언스 활용에 타 학문 이론 지식이 필수인 이유

데이터 과학이라는걸 코드 몇 줄로 답이 나온다고 주장하는 부트캠프 or 공대식 사고 방식을 가진 분들께 위의 논리와 글을 보여드리고 싶다.

저건 경제학이라고 주장하면 틀린 이야기는 아니지만

  • 아이디어를 발제하고 배경지식을 가르친 나 자신이 일단 경제학에서 오래 전에 손을 놓고 계산 전공으로 빠졌던 사람인데다, 국제경제학은 수업 들은 적도 없고
  • 저 글을 쓴 학생은 내가 대학 전공이라고 취급해주지도 않는 경영학과 출신이다

우리는 순전히 데이터만 놓고 봤고, 요소생산성이라고 경제학에서 이름 붙여놓은 Regression만 봤을 뿐이다.

굳이 쓴 경제학이 있다면 학부 1학년 수준의 비교우위론이 전부고, 우리가 배우지 않은 헥셔-올린을 구글링해서 찾아봤을 뿐이다.

 

Data Science라는 학문이 DNN을 이용해 ‘인공지능’을 만들어내는 학문이니까 저건 Data Science가 아니고,

위의 논리는 경제학 비전문가들이 우연히 데이터 맞춰보다가 운 좋게 맞아들어간거라고 하면 할 말은 없다.

 

근데, 계산과학에 발을 들여보면 알겠지만 세상 거의 대부분의 (Quantitative) 전공들이 대학원에서 배우는 수학/통계학이 큰 차이가 없다.

다만 자기 학문에서 쓰는 방식이 그 학문 나름대로 진화해서 부르는 명칭부터 달라진 경우가 많더라.

당신들이 DNN, 아니 AI라고 부르는 계산법도 Non-linear 계산법 중 하나에 불과하다.

날 박사 학위 프로그램에 뽑아준 교수님도 경제학에서 석사까지 그만큼 훈련받고 살아남았으면 계산과학으로 새로 배워야하는 수학/통계학은 알아서 따라올꺼라고 생각했다고 하셨고.

한국처럼 학문 이름 하나하나에 목을 매는 곳이 아니라, 그 밑바닥에 있는 연구 도구에 초점을 맞추는 곳에서는 당연한 일이다.

어차피 도구만 익혀 놨으면 연구 주제는 관심사의 영역이니까. 비일비재하게 ‘학제간 연구’가 일어날 수 있는 이유다.

 

위의 저 학생이 글로 옮긴 논리도 아마 제대로 경제학 공부를 하신 분이 붙으면 좀 더 알찬 보고서로 업그레이드 될 수 있을 것이다.

반대로 DNN에 데이터를 무작정 집어넣는다고 저 위의 논리를 뽑아내는 것은 소 뒷 걸음에 쥐 잡는 것보다 더 낮은 확률의 기적이다.

 

AI/Data Science라는 ‘홍보용 이름’을 달게 된 계산과학을 배우고, 가르치게 되면서,

이런 방법론 학문은 단독 학문으로 살아남는 것이 아니라 다른 학문의 지식과 만나야 현실에 도움이 된다는 것을 깨닫게 됐다.

그 어떤 고급 수학도 현실에 적용될 수 없으면 ‘Hobby’에 불과하게 되니까.

 

동물 실험에서 먹이주는 값을 외부 입력 수치로, 동물이 자라는 것을 내부 변수의 움직임으로 수식화하고,

그걸 동적최적화 모델 안에 넣어서 동물 실험을 시뮬레이션으로 구현하는 연구를 하시는 분이 SIAI 학생으로 와 있는데,

박사 시절에 Dividend/Consumption이 외부 입력 값, Asset price를 내부 변수로, 그걸 HJB에 얹어서 풀어내는 계산을 기계처럼 했었던 기억이 나더라.

수식의 형태는 거의 같다.

단지 적용하는 곳이 한 쪽은 금융수학이고, 다른 한 쪽은 생명공학일 뿐.

 

더 위의 비교우위론 논리는 사실 N개 요소가 비선형으로 결합되어 있을 때 이걸 어떻게 ‘쉽게’ 선형 모델로 바꿔 풀 수 있느냐를 가르치기 위해서

Log로 풀어내면 곱셈이 덧셈으로 바뀌니까 학부 저학년 수준의 단순 회귀분석으로 바꿔서 문제를 풀 수 있다는 걸 알려주기 위해 냈던 예제에 불과하다.

난 수식 예제로만 배우니까 현실감이 없길래 저걸 가르칠 때 학부 1학년 경제원론의 지식을 갖고 왔을 뿐이다.

일전에 말했던대로 같은 논리를 전력 에너지 생산과 분배에 적용할 수도 있고, 팀원들의 업무 기여도 분배에도 쓸 수 있다.

도메인 지식은 별개의 학문일지 몰라도 수식은 공통 학문이니까.

 

Data Science란 AI에 대한 잘못된 믿음에 기반해 모든 것을 ‘자동화’ 할 수 있는 종교 같은 지식이 아니라,

데이터 속에서 인간의 눈으로 찾아내기 쉽지 않은 패턴을 찾을 수 있는 계산통계학 학문이고,

그 패턴이 반복 패턴인 경우에 해당 데이터가 이용되는 학문, 업계에서 활용할 수 있도록 도와주는 도구다.

 

공돌이들이 벗어나지 못하는 착각, ‘자동화 = 인공지능(AI)’

한국인들이 전공의 ‘이름’에 휩쓸려 편견을 갖게 되는건 지식이 없기 때문이다.

모든 Quantitative 학문은 다들 비슷비슷한 수학/통계학 훈련 위에 적용하는 주제만 조금씩 다를 뿐이라는 걸.

모 정치인 자제 분의 표현을 빌리면 ‘미개’하기 때문이고, 내 입장에서는 대학 교육이 실패했기 때문이라고 인과를 설명하고 싶다.

 

같은 맥락에서 대다수의 공돌이들이 ‘자동화=인공지능(AI)’이라는 잘못된 착각에서 벗어나지 못하는 것도,

인공지능이라고 불리는 계산통계학이 어떤 학문인지에 대해 인터넷 검색 수준의 굉장히 편협한 지식만을 갖고 있기 때문이다.

역시 대학에서 제대로 된 수학/통계학 기반의 학문 교육에 처참하게 실패했기 때문에 벌어지는 일이다.

 

개미 군집 연구를 하던 생물학 박사 분이 SIAI와서 저 위의 기초 회귀분석 수업을 듣고는 충격을 먹었다고 그랬다.

자기 연구실에 들어온 사람들이 봐야하는 기초교재를 새로 만들었단다.

언젠가 본인 학문에 위의 ‘수식’을 제대로 적용시킬 수 있는 레벨로 성장하게 되면

SIAI에 Biology + Data Science 수업을 하나 만들어 달라고 부탁했다.

갈 길이 멀겠지만, 언젠가 하실 수 있으면 좋겠다.

 

타 학문에서 박사하며 연구 역량을 쌓은 분들과는 시선의 높이가 다르기는 하겠지만,

미-중 갈등을 기초 Data Science로 풀어낸 저 위의 학부생은

최소한 학부 레벨에서는 탈한국 수준의 Data Scientist라고 해도 무방하지 않을까?

Similar Posts