DS 인력풀이 문제? 교육이 문제? 나라가 문제?

필자는 얼마 전 KAIST 최호용 교수님의 부탁으로 기술경영 전공의 ‘CEO세미나’라는 수업에서 강의를 했다. ‘순한 맛’ 강의를 해 달라는 신신당부가 있었지만 결국 ‘매운 맛’이 되어버렸는데, 아무튼 필자는 2시간 동안 외부 강의에 나가면 항상 하던 이야기인 우리나라의 교육 수준, 특히 DS 교육 수준에 대해 이야기를 했다. 필자가 수업에 쓰는 교재들을 활용해 엉망인 학부 저학년 교육이 고학년 교육도 망치고, 그래서 졸업생 수준도 떨어지고, 그들을 채용하는 기업까지도 엉망이 되는 악순환을 지적한 것이다.

우선 필자가 운영하는 대학의 입학 전 예비교재 중 하나를 띄워놓고, t검정(t-test)을 모르는 사람은 없을 것이다, 아니 최소한 Z검정(Z-test) 모르는 사람은 없을 것이다, 이 둘의 차이는 분포함수가 정규분포이냐 Student-t 분포이냐 밖에 없다, 전체 집단에 관한 정보(정확히는 분포함수 정보)의 유무가 분포함수의 차이를 만든다, 그렇지만 일반적으로 학교에서는 ‘분산’값을 알고 있는지에 따라 t검정과 Z검정을 구분한다, 이런 말을 하면서 수업을 시작했다.

t검정과 Z검정은 ‘같은 클래스’의 통계 검증 방법이다. 식의 형태는 같은데 ‘분산’이나 ‘표준편차(오차)’ 값만 다르다는 것은 공식에 들어간 직관이 같다는 것을 뜻한다. 단지 목표값(μ)에서 얼마나 멀리 떨어진 값인가를 따질 때 ‘분산 or ‘표준편차(오차)’를 이용해서 크기 보정 (Scale) 작업을 해 두었을 뿐이다.

여기까지는 아마 제대로 통계학을 공부했다면 학부 1학년이 되기 전부터 알고 있을 상식적인 내용일 것이다.

이미지 오른쪽의 A/B 검정(A/B test) 공식을 보면 분자는 그 둘의 차이이지만, 분모에는 무언가 복잡한 식이 들어가 있다는 것을 확인할 수 있다. 분모의 식을 평가하기 전, A/B 검정은 두 값의 차이가 유의미한지를 통계적으로 확인하는 검증법이라는 점에 초점을 맞춰보자.

필자는 이 대목에서 학생들에게 t검정과 A/B 검정도 ‘같은 클래스’라는 필자의 견해를 제시한 뒤 그 이유가 무엇일지 추측해 보라는 질문을 던졌다. 거의 모든 학생은 엉뚱한 대답을 내놓았고, 학부 1학년 신입생 한 명만이 정답을 말했다.

Control이 t검정에서는 고정값인 μ, A/B 검정에서는 변동값인 X_2 샘플의 평균으로 설정됐을 뿐, 두 값의 차이가 유의미한지를 통계적으로 검증하는 테스트라는 점은 같기 때문이다. 분모가 다른 것은 두 변수가 동시에 움직이는 상황에서는 각각의 분산이 결합한 값이 합계 분산이 되어야 하기 때문이다. 이때 합계 분산이 위에서처럼 A, B가 독립적으로 움직이지 않고 인과관계를 가진다면 회귀분석의 영역으로 넘어가게 된다. 공분산 계산이 간단하지 않기 때문이다.

달리 표현하면 t검정은 A/B 검정의 1변수 전용 특수형 테스트, A/B 검정은 회귀분석의 기초 버전이다. (DNN 마니아라면 공감하지 못하겠지만) 회귀분석이 DNN 형태의 입-출력 시스템을 설계하는 기초인 만큼, 학부 1학년 때 배우는 t검정은 모든 지식의 가장 기본형이 된다고 할 수 있다. 그런데 여기서 모두가 다 ‘같은 클래스’에 해당한다고 말할 수도 있는 것이다.

사실 거의 모든 통계 테스트, 통계 계산은 비슷한 개념으로 구성되어 있다. 그뿐만 아니라 우리가 평소에 생각하는 방식 역시 비슷한 개념으로 이루어져 있다. 100m 달리기에서 9.71초와 10.71초, 11.71초는 각각 올림픽 메달권, 한국 국가 대표, 동네 달리기 1등 정도에 해당한다. 하지만 100m 달리기가 아니라 친구를 업고 다섯 바퀴를 도는 장난을 치는 경우라면, 1초의 격차는 그렇게 크게 다가오지 않는다.

두 번째로는 하우즈만 검정(Hausman test)에 대한 이야기를 했다. 필자의 학교에서는 MBA 과정 첫 학기의 수학 및 통계학 수업 6번째 강의에서 가르치는 내용이다. 데이터 사이언스에 있어 필수지식인 내용이기에 초반부에 가르치기로 한 것이지만, 필자가 학부에서 이 내용을 접하지 못했기 때문이기도 하다. 영국에서는 학부 2학년, 미국에서는 학부 3학년 때 가르치는 내용임에도 불구하고 말이다.

사실 필자는 이 내용을 접하고 학부 때 왜 이걸 공부하지 않았냐고 자책하기도 했고, 이를 가르쳐 주시지 않았던 교수님들께 불만을 품기도 했다. 그렇지만 이런 불만은 하우즈만 검정이 t검정의 특수 변형 중 하나라는 사실을 깨달은 뒤 사라졌다. 단지 쓰이는 방식이 달라졌음을 스스로 깨달았다면 되는 문제였는데, 능력이 부족해 그러지 못했다는 사실을 ‘깨달았기’ 때문이다.

2번째 페이지 하단의 카이제곱 검정(Chi-square test)은 사실 t검정의 제곱 형태라고 봐도 무방하다. 인버스로 들어간 값은 루트로 들어간 분산 값의 제곱이고, 전치행렬(Transpose)과의 곱이 들어간 부분은 말 그대로 벡터 곱셈이기 때문이다.

이런 식으로 수학식을 근본적으로 이해해서 t검정과 A/B 검정, t검정과 하우즈만 검정의 차이는 사실상 무의미하다는 것을 깨닫고 나면, 첫 페이지의 귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis)을 설정하는 부분이 더 중요하다는 것도 알 수 있다. 어떤 특정 변수가 내생성(endogenous)을 지녀 계산에 문제를 일으키는지, (그래서 IV 같은 대체 계산법을 활용하지 않으면 계산 값이 무의미한 것인지) 아니면 변수가 외생적(exogenous)이어서 이런 점을 신경 쓰지 않아도 되는지를 검증하는 작업인데 수식으로만 따질 것이 아니라 수식을 도출하기 위한 현실을 봐야 한다.

20층짜리 대형 건물을 쓰고 있는 큰 기업 건물의 1층에 카페가 있는데, 비싼 커피의 매출액에 ‘직급’이 영향을 줬는지를 따져 봐야 하는 상황이라고 가정해보자. 특정 직급 이상부터는 회사에서 하루에 커피 X잔을 무료로 제공해 줬을 수도 있고, 소위 말하는 ‘법인 카드 신공’을 발휘할 수 있는 직급도 있을 것이다.

이러한 직급 문제 때문에 가격 – 연봉 간 상관관계를 보는 데 어려움이 있다면 적절한 중간 계산을 이용해 방해 요소를 제거해야 하지 않을까? 그런데 사실 이 부분은 데이터만 잘 정리되어 있으면 SPSS 같은 툴에서 버튼 몇 번만 클릭하면 단번에 해결할 수 있고, 파이썬이니 R이니 하는 코드를 돌린다고 해도 라이브러리가 충분한 만큼 코드 몇 줄만 돌리면 끝나는 간단한 고민이다. 여기서 더 중요한 건 어떤 IV를 고르는 것이 합리적이고, 결과는 어떻게 해석해야 하는지에 관한 지식이다. (DNN 마니아는 여기에서도 DNN만 쓰면 인공지능이 ‘마법의 해결책’을 찾는다고 주장할지도 모른다.)

마지막으로는 중심성(Centrality) 개념을 설명하기 위해 키워드 네트워크(Keyword network)와 생키 다이어그램(Sankey diagram)을 제시했다.

오른쪽의 생키 다이어그램은 시작부터 종료 지점까지 어떤 선택을 거쳤는지에 기반해 자료를 재정리한 뒤 그래프로 표현한 것인데, 각 단계에서 다음 단계로 넘어가는 사람들의 최종 선택 결과는 앞서 언급한 A/B 검정을 활용해 효과 검증을 하는 데 쓸 수 있다. 수십 개의 A/B 검정을 단계별로 묶어 연속적으로 수행한다면 효과적으로 복합 가설을 검증하는 도구가 될 수 있다는 것, 이해했으리라 생각한다.

왼쪽의 키워드 네트워크는 현재 필자 회사 산하의 인터넷 언론사에서 활용하는 그래프이기도 한데, Eigen Centrality 개념이 활용됐으며 인터넷의 여론이 어떤 키워드를 중심으로, 어떤 키워드와 연관되어 소비되고 있는지를 파악할 때 유용하다. 그렇지만 해석 시점에는 결국 A/B 검정과 같은 접근을 하게 된다. 구체적으로 설명하자면 두 키워드의 거리가 너무 먼 것은 아닌지, 어느 정도를 유의미하게 ‘떨어진’ 상태로 볼 수 있을지, 어떤 키워드가 다른 키워드를 ‘잡고 있는’ 상태라고 볼 수 있는지를 판단할 때 쓴다.

사실 이 두 예시는 조금 수준이 높을 수 있지만, 앞서 언급한 하우즈만 검정은 (적어도 필자의 기준에서는) 데이터 사이언티스트의 역량을 판단하는 굉장히 중요한 개념이다. 효과적인 ‘추상화’로 현실의 문제를 잘 잡아낸 통계 검증을 만들 수 있는지를 확인하는 것이다. 그렇지만 1차 모멘트밖에 보지 못하는 공학도들은 어이없게도 캐글(Kaggle) 순위표만 보고 있다.

필자는 석사 이후 경제학계를 떠났지만, 이 하우즈만 검정에 평생을 바치는, 미시 실증분석 연구자들도 꽤 많다는 것을 기억하고 있다. 매출액이나 데이터 사이언스와 관련된 외주 프로젝트를 맡기고 싶은 회사가 있다면, DNN 말고는 통계학 지식이 전혀 없는 공대 교수나 개발자가 아니라 대학에서 응용 미시를 연구하는 교수를 찾아가는 게 나을지도 모른다. ‘컴퓨터 신’이 뱉어내는 쓸모없는 값을 위해 엄청난 하드웨어 구매 예산을 요청하는 DNN 마니아에게서 벗어날 수 있을 것이다.

필자는 이렇게 잘못된 인재가 나오는 가장 큰 원인은 잘못된 교육이라고 지적하며 강의를 마무리했다.

박사생 시절, 우연히 본 논문이 박사 Job market paper(박사 과정을 졸업하면서 명문대 교수가 되기 위해 좋은 논문을 뽑아 여기저기 돌리는 논문을 뜻한다)인 것 같아서 저자 이름을 검색해 본 적이 있다. 역시 그분은 시카고 대학 교수였는데, 구글 검색 결과에 같이 뜨길래 들어가 본 강의 후기는 수업을 너무 대충 한다는 불만으로 가득했다. 아마 그 교수의 흥미 포인트, 승진 포인트, 명성 포인트에 반영되는 건 강의 따위가 아니라 연구여서 그랬을 것이다. 사실 필자는 그걸 보고 ‘나는 Best TA of the Year 상을 두 번이나 받았으니 강의에 있어서는 저 슈퍼 천재보다 낫다’라고 좋아했었는데, 요즘 들어 학부 때 정말 좋은 교수님께 하우즈만 검정의 ‘진정한 함의’를 배울 수 있었다면 굳이 투자은행에 가겠다고 4학년을 날렸을까 하는 생각을 다시 하게 됐다.

우리나라 명문대 학생들이 제대로 배웠다면, 이렇게 DNN 마니아가 양산되거나 수준이 떨어지는 학원에서 코딩이나 배우는 사태가 발생하거나, 데이터 사이언스 업계가 ‘공돌이’로 오염되는 사태가 발생하지는 않았을 것이다. 필자 학교의 TA조차 무시하는, 자칭 데이터 사이언티스트가 대기업에 다닌다는 이유로 SNS에서 오피니언 리더 행세를 하지도 못했을 것이고, ‘로보 어드바이저만 있으면 인공지능이 알아서 주식 투자를 해 줍니다’라는 사기가 통하지 않는 시장이 형성됐을 것이다.

과연 우리나라 교수들이 그렇게 대충 강의한 게, 정말 그렇게 연구가 하고 싶어서였을까? 아마 ‘돈’이 안 되기 때문에, 어디 정부 프로젝트, 기업 프로젝트 같은 것에만 목을 맸기 때문이지 않을까?

아니, 그 전에 조금만 어려운 내용을 가르치면 학생들이 울며 도망가니 그냥 포기해 버린 건 아니었을까?

여기까지만 이야기하도록 하겠다.