통계학 모르는데 데이터 사이언스 독학할 수 있나요?

13
pabii research

우연히 구글링 중에 재미있는 글을 하나 봤다.

문득, 필자가 뱅킹을 “때려”치우고 나와서 박사 유학 준비하던 시절이 떠오르더라. 경제학 전공자가 박사 유학 갈려면 학점이 좋아야하는게 아니라, 수학과 (수리)통계학 과목 학점이 좋아야한다. 진짜 좋은 학교 어드미션 받아서 유학 가는 친구들은 수학과 애들을 제치고 A+들을 수두룩하게 받았고, 그게 아니라면 수학과 통계학을 활용해서 경제학 논문을 잘 쓸 수 있는 능력을 여러가지 과외활동으로 검증 받은 경우가 대부분이었다.

경영학과로 가면, 사회학스러운 연구하는 다른 세부 전공을 제외하고, 제대로 수학과 통계학 이용해서 모델링해야하는 파이낸스, 퀀트 마케팅, 퀀트 기반 생산관리 등의 전공에서 좋은 학교 어드미션을 받기 위해서도 경제학 전공자랑 유사한 경쟁 과정을 거친다. 그래서 필자가 파이낸스로 박사 전공을 갈아탈려고 하던 시절에 알고 지내던 교수님들이 니가 수학, 물리학, 통계학 출신이 아니니까 탑스쿨 파이낸스 박사 프로그램을 가기는 어려울거라고 “욕심을 버려라”는 일침을 놔주셨던 기억이 새록새록 난다.

(실제로 한국에서 경제학, 경영학 학부 출신인데 미쿡 탑스쿨에 파이낸스 박사로 들어가는 건 거의 하늘의 별따기 수준이다. 그 동네에 진입하는 한국 토종들은 대체로 물리학, 수학 같은 “무거운” 전공으로 박사 학위가 하나 있는 상태 and/or 고교시절 세계 수학/물리학 올림피아드 수상자들이다. 음… 사실 필자도 어줍잖은 고교 수학 경시대회 수상실적 있다. 명함도 못 내밀수준이지만….)

 

1. 높은 수준의 학위, 그리고 수학/통계

일반인들은 박사 학위에 들어가면 그 전공과 관련된 폭넓은 지식을 익히는 줄 안다. 필자가 처음 경제학으로 대학원에 들어갔을 때, 아버지께서 경제 신문도 안 읽는 녀석이 무슨 경제학 박사하겠다고 까부는지 이해할 수가 없다고 그러셨는데, 아마 일반인들이 가지는 편견을 잘 보여주는 예시가 될 것 같다.

박사 학위에 들어가면, 농담이 아니라 그 날부터 증명만 한다. 수학으로 꽉 짜여진 증명. 보스턴에서 박사 동료와 논문 같이 쓰던 시절에 경제학이랑 수학이랑 뭐가 다르냐고 농담을 한번 한 적이 있었는데, 학부 수학과 출신인 브라질 동료가 그러더라. 모든 학문의 언어가 다 수학이라서 그렇게 느끼는거고, 필자가 수학 안 쓰는 사회학스러운 전공들과 비교해서 경제학이 수학처럼 느껴지는거지, 더 수학스러운 전공에 비하면 경제학은 그냥 평범하게 수학을 “언어”로 쓰고 있는거라고 했다.

데이터 사이언스 대학원을 가면 크게 다를까?

별 다를 바 없다. 알고 지내는 후배들이 데이터 사이언스 석사 프로그램을 들어가서 필자에게 보내주는 숙제들을 보면, 수학과 통계학으로 훈련이 잘 된 학생들만 이해하고 살아남을 수 있을만한 교육과정으로 구성되어 있는 것을 확인할 수 있다.

실리콘 밸리에 있는 어지간한 IT회사들이 데이터 사이언티스트 뽑을 때 수학이랑 통계학으로 면접 질문을 한다는 건, 그 지식이 필수적이고 코딩 같은 지식이 부가적이라는 걸 단적으로 보여주는 동시에, 관련 전공 대학원 출신이면 그런 지식을 제대로 이해하고 있을 것이라는 기대가 있기 때문일 것이다. 어지간한(사회학스럽지 않은) 전공으로 박사했으면 다들 수학이랑 통계학으로 훈련받는 건 비슷할테니 Quantitative 전공이면 쉽게 데이터 사이언티스트 서류 통과되는 것도 같은 맥락일듯.

 

2. 데이터 사이언스를 위한 수학 & 통계 강의 후

Keyword in Data Science is not “Data” but “Science”

워낙에 데이터 사이언스 공부하고 싶은데 자기가 수학과 통계학을 배운 적이 없다는 둥, 얼마나 알아야되는지 모르겠다는 둥의 메일을 많이 받아서, 작정하고 수학 & 통계 수업을 개설해봤다. 어차피 짧은 시간에 학부 선형대수, 미분방정식, 회귀분석을 다 가르칠 수는 없으니, 평소에 작업하면서 자주 쓰는 내용, 사람들이 잘 모르고 가는 내용들 위주로 단시간 커리큘럼을 구성했다.

의외로 실력이 탄탄한 분들이 오셔서 답변드리기 쉽지 않은 질문을 던지는 경우도 있었고, 자신의 학부 전공으로는 데이터 사이언스를 못한다는 냉정한 현실을 깨달으시는 분들도 있었다. 박사 어드미션과 마찬가지로, 본인 전공에 선형대수, 미분방정식, 회귀분석 같은 도구를 배우지 않으면 냉정하게 말해서 손 놔야한다. 경영학과 출신이면 Data Scientist 대신 Data Analyst를 위해서 목표 재설정하고, 코딩치던 개발자면 Data Engineering 하라는데는 다 이유가 있다. (물론 그렇다고해도 필자의 Data Science 강의에서 최소한 70~80% 정도는 이해해야 시장에서 인정받는 직업인이 되실 수 있을 거라고 생각은 하지만…)

박사 학위 들어가보면, 많은 학생들이 1학년 때 중도 포기를 한다. 자기는 경제학을 배우려고 왔는데, 왜 갑자기 수학만 하는지 모르겠다고 그만두는 경우가 한 학년 20명 중에 최소한 4-5명은 될 것이다. 한국서 박사 학위 지원하겠다고 교수님들 추천서를 받으러가면, 보통 수학 수업 얼마나 들었는지 물어보고, 수업 들어본 내역이 없으면 포기해라고 솔직하게들 이야기 하신다.

필자도 꼴에 공부 좀 했다고, 수학과 통계학 기초지식 없으신 분들께 포기해라고 솔직하게 말하고, 수업 듣고 난 다음에 못 하겠다는 걸 깨달은 분들께 “일찍 깨달으셔서 다행”이라고 이야기를 해 준다. 우리들끼리 박사 학위는 자신의 지적인 능력을 과대맹신하는 사람들이 헤어나오지 못하는 구렁텅이에 빠지는거라고 비관하는 일이 자주 있는데, 데이터 사이언스 공부하고 싶다고 찾아오시는 분들께도 똑같이 적용되지 않을까 싶다.

 

3. 통계학 모르고 계량경제학 독학 할 수 있나요?

일단 질문을 읽고 이렇게 말이 안 되는 질문에 무슨 대답이 달려있을지 너무 궁금했다.

역시 집단지성의 힘은 위대하다는 생각이 들더라. 다들 솔직하게 불가능하다는 사실을 일깨워주고 계셨다. 모르긴 몰라도 원 질문을 쓰신 분은 간단한 1차 미분으로 최적화 문제를 푸는 수준 정도만 알고 있는 상태일텐데, 그 정도 지식으로 “수학적인 훈련”을 받았다고 말하기 어려운 것은 물론이거니와, 수학적으로 훈련된 상태에서 통계학 지식과 결합하는 과정 + 경제학에 적용하는 과정이 이른바 “계량경제학”인데, 그 사실을 저런 질문을 통해서 깨달으셨으면 다행이겠지.

데이터 사이언스는 수학적으로 훈련된 상태에서 통계학 지식과 결합하고, 그걸 이른바 “빅데이터”에 적용하는 과정을 말한다고 생각한다. (빅데이터가 뭔지는 이미 여러번 언급했으니 그냥 용량만 많은 데이터라고 착각하시는 분은 없으리라고 생각하고 자세한 설명은 생략한다.) 당연히 수학과 통계학 기초 지식이 탄탄하게 갖춰져야 모델을 만들고, 모델을 이해하고, 그 모델들을 바탕으로 비지니스 문제를 해결하는데 적용할 수 있는 것이다.

 

나가며

구글링을 해보면 정말 어마어마하게 많은 양의 저작물들이 데이터 사이언스, 머신러닝, 인공지능 같은 키워드에 연관 검색으로 걸리는 것을 확인할 수 있다. 솔직하게 말해서 필자의 눈에 추천할만한 저작물들은 (거의) 전무하다. 이런 “쓰레기”를 찍어내고 팔고 있는 출판업계와 저자들에 대한 역겨움과 불편함도 항상 따라다닌다. (친구들은 필자더러 시장을 무시하는 티가 너무 많이나는 글을 쓰고 있다고 “주의”를 주기도 한다.) 거기에 주머니를 열고 돈을 쓰는 사람들은 딱하다고 해야할까, 아니면 불쌍하다고 해야할까?

수업 말미에 그랬다. 컴공과 출신 코더들한테 데이터 사이언티스트 이름 붙이고 있는 사람들 만나면 배운 내용들 좀 전달해주라고. 어느 스타트업 대표님은 회사 개발자들 몇 명 델꼬와서 이 수업을 듣게할려고 했더만, 그렇게 해서는 아무런 도움도 안 되겠다는게 보여서 고민이 많아졌다고 하시더라. 저런 고민 끝에 돈 없다는 핑계로 아마도 많은 회사들이 복잡한 거 만들지말고, 그냥 누가 만들어놨다는거 그냥 베껴서 우리회사 플랫폼에 얹으면 되겠지라고 생각하고 오픈 소스 코드들 긁어오는데 집중하는 방향으로 갈 것이다. 다른 대기업 출신 모델러 분께서 말씀하셨듯이, 세상이 얼마나 빠르게 변하고 있는데, 그렇게 만든 모델이 반년만 지나도 무의미해지는 걸 여러번 겪어봐야 정신차리고 관점이 바뀌게 될 것이라고도 생각한다.

얼마전에 만난 어느 개발자는 필자의 모델이 좋은 모델인지 아닌지는 테스트를 해봐야한다고 그러더라. 만든 모델 중 제일 좋은 모델을 하나만 골라서 쓴다고 생각하는 사람들이 가지는 편견이 낳은 어리석은 논평이다. 진짜로 검증을 해봐야하는건 그 모델이 돌아가서 나오는 결과 이전에 그 모델러의 지식 수준이다. 본인이 지식과 식견이 부족하니 최종 결과만 보겠다는거다. 당연하겠지만 데이터 사이언스 알고리즘이 제대로 돌아가는 회사들은 그렇게 모델 하나만 믿고 나가는 바보 짓을 안 한다. 담당 모델러가 붙어서 끊임없이 모델을 테스트하고, 수정하고, 또 여러 모델들을 항상 sub-model 형태로 계속 갖고 간다. 그럴러면 그 모델러가 모델 하나만 삑~ 만들고 끝나는 사람이어야할까? 아니면 제대로 수학, 통계학을 알고 있는 상태에서 trouble-shooting을 이끌어 나갈 수 있는 사람이어야할까?

이런 편견이 시장에서 제거되려면 결국 “통계학 없이 계량경제학 할 수 있냐”는 질문 자체를 아예 하지 않는 정도로 시장의 수준이 올라와야 한다. 학교 교육이 코딩에 방점을 찍는게 아니라 수학에 방점을 찍어야하는 이유가 바로 여기에 있다.

Similar Posts