전략 컨설팅의 실패와 머신러닝의 관계

우리 회사에 전략 컨설팅 방식의 논리 구조화를 좋아하고, 그 방법으로 비지니스 의사결정을 안 하고 있는 상황을 잘못되었다고 지적하는 직원이 하나 있다.

그 분의 사고 방식이 왜 틀렸는지를 설명하다보니 이게 왜 선형 회귀에서 비선형 회귀 or 머신러닝으로 계산 알고리즘의 중심축이 이동하고 있는지와 맞닿아있는 것 같아 글을 한번 정리해본다.

전략 컨설팅에서 하는 “케이스 풀이법”

우선 전략 컨설팅에서 하는 “케이스 풀이법”을 한번 살펴보자.

우리 동네 대형 슈퍼마켓의 매출액을 가늠한다고 할 때, 1가구 4인으로 가정하고, 각 가구별로 1주일에 한번 장을 보러 간다고 가정하고, 한번 장을 보러갈 때 고기, 야채, 우유 등등 기본 품목과 가끔씩 사는 품목을 생각하면 약 20만원의 장바구니가 나온다고 가정해보자. 우리 동네 인구는 120만명이고, 대형 슈퍼마켓이 3개 있고, 각각의 시장 점유율은 33%씩이라고 하면,

30만 가구 X 시장점유율 33% X 장바구니 20만원 X 52주

라는 방정식을 통해 그 대형 슈퍼마켓의 매출액을 가늠할 수 있다.

아마 시간적 여유가 더 있으면 인구, 가구별 인원 수, 시장점유율, 장바구니 사이즈 등등에 대해 더 많은 자료를 붙여서 좀 더 정확한 예측을 해 볼 수 있을 것이다.

이런 식의 “케이스 풀이법”은 필자가 학부 3학년 때 B모 전략 컨설팅 회사 인턴을 준비하면서 선배들에게 술자리에서 “야매”로 배운 방식이기 때문에 틀릴 수 있고, 또 시대 상황이 많이 달라졌기 때문에 요즘은 다른 방식일 수도 있다는 걸 미리 인정한다.

그럼에도 불구하고, 논리를 구조화하는 방법은 여전히 같다는 이야기를 주워들었으니 지금도 비슷할 것이라고 “가정”하고, 지적질을 하자면, 저런 방정식은 매우 많은 영역에서 틀린 이야기를 담고 있다.

1. 모든 것은 가정에 불과

가장 심하게 잘못된 부분을 딱 하나만 지적해라면, 위의 방정식은 수십, 수백개의 가정 위에 만들어졌는데, 그 가정이 맞는지 확인된 바가 없다는 사실이다. 당장 우리 동네 인구 120만명, 대형 슈퍼마켓 3개 같은 실제 숫자를 제외하면 쓸 수 있는 숫자가 하나도 없는데

1가구는 4인으로 구성되나?
1인당 소비하는 장바구니는 (최소한 합계금액이라도) 비슷한가?
1주일에 한번 장보러 가는게 맞나? 다른 주기로 방문한다면 1주일 평균 장바구니 금액은 비슷한가?
대형 슈퍼마켓 대신 편의점이나 집 앞 소형 마트에서 구매하는 비중은 얼마인가?
시장 점유율은 항상 고정인가? 수시 판촉 행사로 매일처럼 널뛰기 하는건 아닌가?
설, 추석, 연말 등의 시즌에도 매출액 비중은 비슷한가?

잠깐 사이에 6개의 질문을 뽑았는데, 위의 질문에 아주 살짝만 다른 답을 내놔도 전체 매출액 예측치가 어마어마하게 큰 차이가 난다. 왜? 52주를 곱해주고 있으니까.

2.각 변수간 연관관계는 곱셉이나 덧셈같은 Linear 관계인가?

30만 가구 중 33%가 우리 슈퍼마켓을 방문한다고 그랬는데, 우리 동네 30만 가구의 소득 수준은 비슷할까? 소득 수준이 비슷하다면, 혹은 다르더라도 소비 수준은 비슷할까? 백보 양보해서 평균과 분산만 쳐다보면 되는 단순한 정규분포 구조를 따르고 있을까?

소득 구조에 대한 그래프들은 하나같이 최상위 층이 대부분의 소득을 독점한다고, 각 사회별 분배구조가 얼마나 잘 되어 있는지를 따지는 수 많은 지표들이 존재하지 않나? 지니계수까지 포함해서 계산하면 되지 않냐고? 소득구조는 거의 대부분 Poisson 이나 Log Normal 분포 형태를 갖는데, 지니계수 같은 변수 하나로 계산이 정확해질까? 정규분포, t분포 같은 좌우대칭형 종모양 분포가 아닌 분포들은 3차 moment 이상의 정보들을 반영해야 제대로된 계산이 가능해진다. 당장 right-skewed 인 분포에서 평균과 최빈값의 차이를 생각해보시라. 단순 평균을 쓰면 과다계상된 매출액이 나올 것이다.

저런 분포 함수의 형태는 제쳐놓고, 고정일 것이라고 가정했던 시장 상황이 수시로 변하고 있다면? 주변에 수시로 다른 업체가 진입하고 있고, 길이 사통팔방으로 나서 다른 동네 마트를 쉽게 다녀올 수 있다면? 더 결정적으로 요즘처럼 e-Commerce 회사들의 할인 쿠폰 마케팅 한번에 매출액이 엄청나게 크게 움직일만큼 시장 상황이 다변수에 영향을 받고 있다면?

3. Linear로는 더 이상 불가능한 도전

위의 사소한 질문만 봐도 알겠지만, 각 변수간 연관관계가 단순 곱셈이나 덧셈같은 관계가 아니다. 수학을 이용한 모델링을 하는 곳에서는 단순 곱셈, 덧셈으로 구성된 인과 관계를 Linear한 관계를 갖고 있다고 표현하고, 평균/분산 이외의 3차, 4차 moment를 따지거나 제곱, 세제곱 같은 고차항을 포함한 여러 변수들의 결합된 영향을 따지거나, 아예 exponential, log 등의 함수 형태를 이용해야하는 경우에는 Non-linear한 관계를 갖고 있다고 말한다.

숫자로 예를 들면, 2인 가구일때 10만원의 장바구니였다고 4인 가구에 20만원짜리 장바구니를 사는게 아닐 수 있다. 왜? 식구가 늘어나면 집에서 요리해 먹는게 저렴하고, 2인 가구는 아마도 부부 2인 가구일텐데 맞벌이 부부라면 밖에서 사 먹는 일이 더 많을 수도 있다. 그럼 6인 가구는? 2인 -> 4인에서 봤던 그래프 모양이 그대로 유지되면서 6인 가구의 장바구니를 맞출 수 있을까? 그래프가 단순히 Convex, Concave 형태를 유지한다면 가능할지도 모르지. 근데 이런 Extrapolation의 결과값은 대형 평수 아파트 단지와 소형 아파트 단지에서 다르게 나오고, 도시-농촌간에도 다르게 나올 것이다.

Linear와 Non-linear건 모르겠고, 잘 맞추면 되는거 아니냐고 질문할텐데, 아래의 (대충 그린) 그래프를 하나 보자.

직선이 A
거의 진폭이 없는 그래프가 B
가장 아래 위 진폭이 심한 그래프가 C

이다.

Linear 관계를 가진 A 함수를 이용해서 진폭이 매우 심한 C 함수를 맞출 수 있을까? 위의 그래프에서는 딱 6번 일치한다. 가로축 좌표값이 (0, 1, 2, 3, 4, 5) 인 경우에.

그동안 인류가 Linear 관계식으로 대부분의 문제를 풀 수 있었던 이유는 많은 문제들이 기껏해야 B 정도의 복잡도를 갖고 있었기 때문이거나, 우리가 예측해야하는 단위가 분기, 년 등으로 시점이 정해져 있어서 1, 2, 3, 4, 5 포인트들만 맞추면 되었기 때문이다.

(오늘 글의 핵심 포인트였다)

4. 시간을 더 들여서 수준을 끌어올리면 되는거 아니냐?

저렇게 A그래프로 “감으로 때려 맞추기”를 하는 사람들도 변명의 여지가 있다. 시간없이 빠르게 계산하려니까 A가 나온거고, 제대로 시간을 들여 고민하면 당연히 C 그래프를 만들어 낼 수 있다고.

과연 그럴까? 위의 매출액 예측 같은 이야기면 가능할 수도 있다. 물론 요즘처럼 e-Commerce가 어마어마 성장하면서 시장 상황이 시시각각으로 변하고 있는 상황에서도 합리적인 예측치를 뽑아낼 수 있는지는 모르겠지만.

애당초 제3자의 액션들이 비주기적으로 나타나서 시장을 바꾸는 상황을 저런 단순 예측 모형으로 맞추려고 하는 것 자체가 근본적으로 잘못된 접근이라는게 납득이 안 되나? 사실 C도 평면위에 있기 때문에 1변수 모델의 한계를 뛰어넘지 못하고 있다. 3, 4, 5차원의 공간으로 그려야할 다양한 변수가 영향을 미치고, 각 변수들이 내가 컨트롤 할 수 없는 상황이면 저런 단순 예측은 무의미한 공상에 지나지 않는다.

Markovian Decision Process급의 (Action, Strategy, Outcome) 셋트 조합을 놓고 시뮬레이션 돌리는 소위 말하는 Q-learning 같은 절차가 필요해보이는데, 이걸 수학 모르는 친구들이 좀 앉아서 시간만 들이면 맞출 수 있다고? 혹시 A를 C 형태 그래프로 맞추려다가 B번 그래프 정도로 그래프 모양을 약간 덜 Linear하게 만드는 정도이면서 그렇게 우기는거 아닌가?

시간 더 들여서 고민해보면 되는 문제가 아닌, 완전히 다른 레벨의 지식이 필요하다는 걸 예시로 알아보자.

5. 중앙은행이 통화정책을 결정하는 보고서를 만드는 프로세스

방법1. 경제학자가 풀어내는 방식

당신이 거시경제학에서 초저금리 중에 팽창 통화 정책은 실물 경제에 직접 영향을 미치지는 못하지만 초단기채권 금융시장에 교란을 줘서 투자자들이 장기채에 투자하게 되도록 만드는, 결국 장기채 금리가 내려가서 기업들의 장기채 발행을 유발할 수 있다는 종류의 논문을 쓰고 경제학 박사 학위를 받은 다음, 중앙은행의 금융통화정책 결정팀 핵심 연구위원으로 취직했다고 가정해보자.

금융통화위원회 위원님 한 분이 (사실 대통령이랑 같은 교회에 다녀서 뽑힌터라 경제 정책에 대해서 아는게 거의 없지만 그래도 위원회에서 아는 체를 하고 싶은 탓에) 당신에게 이번에 금리를 올리자고 이야기를 하고 싶은데, 어떤 효과가 있는지 보고서를 하나 만들어 달라고 했다고 해 보자.

이번 목요일 오전 10시가 위원회 미팅인데 월요일 오전에 출근하니 이런 초대형 보고서를 만들어 달라고 그랬다. (그 위원님에게 살인 충동이 들지만 그래도 꾸욱 참고) 72시간 안에 최대한 효율적으로 보고서를 만들어야 겠는데, 우선 금리 올리려면 중앙은행이 취하는 정책 수단이 뭐가 있는지 살펴본다.

예를 들면 통화안정채권을 시장에 팔 수도 있고, 시중은행들에게 이연평잔을 계산하는데 압박을 줄 수도 있다. 그 쪽 업무를 해 본적이 없는 필자가 더 자세한 사정은 모르겠지만, 아마 각 국의 중앙은행들이 수십가지 이상의 정책 수단을 보유하고 있고, 각각의 경우에 시장 반응이 어떻게 되는지에 대해 매우 상세한 과거 자료를 갖고 있을 것이다.

그 중 현재 시장 상황, 특히 지난 몇 달간의 금융 시장을 보고 합리적이라고 판단되는 몇 가지 정책 수단을 골라 어떤 사이즈로 시장 개입을 하면 0.25%, 0.5% 금리가 오를 것 같고, 거기에 맞춰 금융시장이 얼마나 위축되고, 따라서 실물 경기가 얼마나 위축될지를 계산하기 위해서 박사 시절 열심히 공부하고 연구하는 내내 자주 봤을 거시경제모형 (아마도 Dynamic Stochastic General Equilibrium의 일반형 모델)에 수치를 입력해볼 것이다. 그 모델은 당연하겠지만 몇 백개의 변수가 뒤얽혀 있는데, 박사 시절에 공부할 때는 거의 대부분의 변수를 고정시켜놓고 내 연구 주제에 직접 영향을 주는 인과 변수들 몇 개만 넣은 소형 모델을 봤었는데 이걸 실제로 업무에 적용하려니 갑자기 수백개 변수를 다 넣어야해서 어안이 벙벙해지는 순간이 오겠지.

거기서 끝나지 않는다. Most likely 그 숫자가 너무 이상하게 나와서 보정을 해야할텐데, 박사 시절 한번 보고 지나갔던 어느 논문이 시장의 어떤 특정 상황을 고려하는 변수를 어떻게 삽입해서 결과를 calibration 했던 걸 기억해내고 보고서를 낼 자료에 적용해보는 프로세스를 계속 거치게 될 것이다. 심지어 자기가 연구할 때 봤던대로 장기간 초저금리가 지속되고 있기 때문에 그 논문에 자기 논문을 결합하는 새로운 모델을 만들고 간단하게라도 테스트를 해 봐야할 수도 있다.

더 쓸 수도 있을텐데, 이 정도면 충분히 복잡한 절차, 업계 관련된 전문 지식, 그리고 깊은 수준의 수리통계학 기반 경제 모델에 대한 이해가 필요하다는 사실을 인지하셨을테니, 이제 컨설턴트들은 이 문제를 어떻게 풀지 생각해보자.

방법2. 컨설턴트가 풀어내는 방식

지난 10년간 금리를 올린/내린 데이터를 살펴보고, 0.25%, 0.5%씩 증감이 총 15차례 있었다는 데이터, 그 때 각각 경제성장률, 각 산업별 성장율이 어떻게 변했는지 중앙은행의 분기별 산업 보고서를 인용해서 그래프를 만들 것이다. 그 다음엔?

자기네 회사 이름을 덧붙여서 아마도 “Source: 중앙은행, 우리 잘나가는 컨설팅사” 라고 그래프 밑에 달아놓겠지.

그 다음엔 IS-LM 같은 학부에서만 가르치고 행정고시 시험문제로만 나오고 있는, 더 이상 경제학계에서 쓰이지 않는 그래프를 놓고 LM 커브가 좌측으로 이동하면서 경기 위축이 발생하는데, 그 움직임은 아까 위에서 구한 저 그래프의 결과값과 비슷하도록 그래프 보정을 해 놓고는 다시 “Source: 어느 유명한 경제학 교과서, 우리 잘나가는 컨설팅사” 라고 달아놓을 것이다.

아마 경제학과 학부 출신 컨설턴트 한 명이 “요즘은 초저금리라서 경제 정책 먹히는 방식이 다르다는 기사 봤었는데, 그런거도 반영하면 어떨가요?”라고 질문하고, 이사는 MBA에서 술 파티 + 골프 파티만 하다와서 무슨 말인지 모르니까 “김 위원님, 김 위원님 박사 아니시잖아요? 그런건 우리가 하는거 아니에요.”라고 자르는데, 파트너 급에서 “아니 김 이사님, 이런건 뉴욕 오피스에 한번 의견 구해봐도 좋을 것 같은데요?”라며 메일로 뉴욕의 경제 전문가라고 쓰고 Wall Street Journal에서 15년 기자 경력인 백인 아저씨 하나를 전문가로 초빙하겠지. 기사만 썼지 경제정책을 잘 모른다? 상관없다. 유명 회사 출신에 금발 + 파란눈 + 백인 + 유창한 영어 4박자만 갖추면 된다.

미국에서는 초저금리 때문에 New York Fed에서 초저금리 관련 연구하는 Harvard, MIT, U Chicago, Princeton 출신 경제학자들을 대규모로 초청한 프로젝트를 진행중이라고 썰을 풀어주면, 그런 경제학자들의 연구를 하나도 모르는, Wall Street에서 지적으로 가장 열등한 종족인 (한낱) 기자 출신의 말임에도 불구하고 금발 + 파란눈 + 백인 + 유창한 영어 4박자를 갖췄으니 우리나라의 잘 모르는 관료들은 껌뻑 넘어갈 것이다.

그리고는 이자율을 올리면 각 산업별로 어떻게 영향을 받아서 산업별 성장률이 영향을 받고, 산업별 비중이 우리나라에 어떻게 나뉘어 있는데, 그 두 값을 곱한 값으로 국가의 경제성장률이 어떻게 움직일 것이라고 예측하는 (매우 단순한 2개 값 곱하기만 쓴 주제에) 매우 화려해보이는 PPT를 준비하고, 엄청나게 비싼 정장을 차려입고, 발표 당일에는 경영학과 애들이 즐겨쓰는 약어들로 자신이 매우 지식의 깊이가 깊은 인간이라고 자랑하는 발표를 하지 않을까?

(쓰다보니 살인 충동이 솟아 올라서 여기까지만 한다.)

왜 전략 컨설팅이 사양산업이고, 머신러닝이 떴을까?

저 위의 전략 컨설팅 스타일 발표자료와 논리 전개 방식은 사실 학부 전공 지식이 필요하질 않다. 자기 산업 분야에 특화되어 있는 몇몇 업계별 경력직 컨설턴트가 아니면, 학부 수준의 학문적 지식은 커녕, 업계 지식도 없이 단순 논리학을 이용해서 수십, 수백개의 가정을 이용해 자기 논리를 만드는 사람들일 뿐이다.

근데, 불행하게도 그 논리라는게 대부분은 Linear 논리일 수 밖에 없다 (위의 단순 2개 값 곱하기처럼). 왜? 학문적인 깊이, 사고의 깊이, 지식의 깊이는 결국 남들이 보지 못하는 지점을 바라봐야하는데, 그런 논리들은 인간이 쉽게 찾아낼 수 없었던 논리, 즉 Non-linear 한 논리들이기 때문이다.

컨설턴트를 왜 무시하냐고 물으면 아마 산업계의 짬밥이 굵은 사람들은 실전 경험이 없이 논리만 화려하다고 비난할 것이다.

데이터 사이언티스트에게 물으면, 위에서 정리한대로 Linear한 (그래서 남들이 조금만 고민하면 찾아낼 수 있는) 논리에 의존하는 사람들이 학문적인 훈련없이 어떻게 Non-linear한 패턴을 찾아낼 수 있겠느냐고 대답하고 싶다.

머신러닝은 혹은 데이터 마이닝, 데이터 사이언스는 데이터에서 쉽게 찾아낼 수 없는 Multi-pattern, Non-linear pattern을 찾아내기 위한 계산통계학적인 방법이다. 기존에는 거의 대부분의 데이터 분포가 정규분포에 수렴했고, 그래서 특별히 Non-linear 패턴을 찾아야할 필요가 없었다. 그러나 동네 슈퍼마켓 매출액 하나 계산하는데도 Multi-player들의 action set을 다 고려해야할만큼 Markovian Decision Process가 필요한 상황이 된 이 시대에 저런 Linear equation으로 남들과 격차를 만들어 낼 수는 없다.

운이 좋다면 A타입 선형 그래프를 만들면서 A, B, C 그래프가 모두 일치하는 (0, 1, 2, 3, 4, 5) 같은 점들을 소 뒷 발에 쥐 잡기로 잡아낼 수도 있을지 모른다. 백보 양보해서, 정말 매우 심하게 많은 고민을 하면 C 그래프는 못 찾아내도 B 그래프는 만들어 낼 수 있을지 모른다.

그러나, 그들이 각 학문의, 각 산업의 깊이있는 지식없이 A에서 C로 Quantum-leap을 만들어내는 것은 불가능하다. 그랬다면 우리가 알고 있는 거의 대부분의 학문들은 이미 없어졌을 것이다.

나가며 – 산업계가 컨설턴트를 외면하는 이유

필자가 학부를 졸업하던 2008년만 해도 McKinsey, Bain & Company, BCG 등의 전략 컨설팅 회사는 졸업생들에게 꿈의 직장이었다. 그 업계를 “이빨만 깔 줄 아는 바보들”이라고 무시하던 외국계 증권사 IBD로 인생 첫 커리어를 시작했던 필자지만, 당시 전략 컨설팅 회사에 가던 그 친구들이 얼마나 많은 “케이스 풀기”와 노력을 쏟아부었는지 알기 때문에, 또 얼마나 머리가 빠릿빠릿하게 돌아가는 친구들이었는지 알기 때문에 그 산업에 대한 멸시의 감정과는 별개로 인간적인 존경심은 갖고 있다.

다만, 그 산업의 방법론은 틀렸다. 위에서 지적한대로,

무수히 많은 가정에 기반해야하고,
그 가정들이 제대로 검증되지 않은 경우가 허다하고,
더 나아가서 그들의 결론은 언제나 Linear 방정식의 평범함에서 벗어나질 못해서

우리시대에는 아무런 가치가 없다.

꽤나 장담컨데, A를 위한 방정식을 만드느니 업계 짬밥이 많은 분들은 차라리 경험에 따른 자신의 직관을 믿고 사업을 할 것이다. 컨설턴트에게 수억원을 주고 받은 A보다 경험에서 나온 직관이 B에, 어쩌면 C에 가까울 확률이 더 높기 때문이다. (다시한번 말한다. 컨설팅 갔던 친구들 인간적으로는 존경한다.)

데이터는 Non-linear pattern 방정식이 필수적인 접근방법론이 될만큼 고도화 되었고, 산업계는 이미 10년전부터 컨설턴트들을 화려한 논리만 있고, 실제 업무를 모르는 겉껍데기라며 혐오해왔다. 앞으로는 더 심할 것이다.

요즘 학부 졸업생들이 필자의 졸업시절 대비 얼마나 컨설팅에 관심이 있는지는 모르겠지만, 어떤 업무를 자신의 커리어로 삼게되건 상관없이 Linear한 결과물을 만들어내는 자리는 당신의 한계를 2000년대 초반 수준에 멈춰버릴 것이라고 경고해주고 싶다.

생각이 짧았던 필자는 그런 지식의 한계에 답답함을 느끼고 석박 유학길에 올랐는데, 이 시대의 젊은이들은 그 때보다 더 옵션이 많을테니 합리적인 선택을 했으면 한다.

[피치원뷰] 정용진 부회장, 컨설턴트를 이마트 CEO로 발탁? “아직 멀었다”

딱히 위의 기사에 언급되고 있는 회사에 대한 악감정은 없지만, 필자와 같은 논조의 생각을 하는 수십명의 Integrated Intelligence가 모여있는 기사 하나를 공유한다. 저 기사 글에 0.01%의 남김도 없이 공감을 표한다.