전략 컨설팅의 실패와 머신러닝의 관계

pabii research

우리 회사에 전략 컨설팅 방식의 비즈니스 접근 방식을 좋아하고, 그 방법으로 비지니스 의사결정을 안 하고 있는 상황을 잘못되었다고 지적하는 직원이 하나 있다.

그 분의 접근 방식이 왜 잘못되었는지를 설명하다보니, 해당 설명이 왜 선형 회귀에서 비선형 회귀 또는 머신러닝으로 계산 알고리즘의 중심축이 이동하고 있는지와 맞닿아있는 것 같아 글을 한번 정리해본다.

전략 컨설팅에서 하는 ‘케이스 풀이법’

우선 전략 컨설팅에서 하는 ‘케이스 풀이법’을 한번 살펴보자. 우리 동네 대형 슈퍼마켓의 매출액을 가늠한다고 할 때, 1가구 4인으로 가정하고, 각 가구별로 1주일에 한번 장을 보러 간다고 가정하고, 한번 장을 보러갈 때 고기, 야채, 우유 등등 기본 품목과 가끔씩 사는 품목을 생각하면 약 20만원의 장바구니가 나온다고 가정해보자. 우리 동네 인구는 120만명이고, 대형 슈퍼마켓이 3개 있고, 각각의 시장 점유율은 33%씩이라고 하면, ’30만 가구 X 시장점유율 33% X 장바구니 20만원 X 52주’ 라는 방정식을 통해 그 대형 슈퍼마켓의 매출액을 가늠할 수 있다.

조금 더 세부적으로는 인구, 가구별 인원 수, 시장점유율, 장바구니 사이즈 등등에 대해 더 많은 자료를 붙여서 좀 더 정확한 예측을 해 볼 수 있을 것이다. 해당 방식에 대해서는 시대 상황이 많이 달라졌기 때문에 방법론이 달라졌을 수는 있겠으나 컨설팅 업계에서 논리를 구조화하는 방법은 여전히 동일하다고 알려져있다. 이를 가정하고 전략 컨설팅에서 하는 ‘케이스 풀이법’에 지적을 하자면, 해당 접근법은 매우 많은 영역에서 틀린 이야기를 담고 있다.

모든 것은 가정에 불과

첫 번째로 위의 방정식은 수많은 가정 위에 만들어졌는데, 그 가정이 맞는지 확인된 바가 없다는 사실이다. 예컨대 우리 동네 인구 12만명, 대형 슈퍼마켓 3개와 같은 실제 숫자를 제외하면 확실하게 사용할 수 있는 수치가 하나도 없다. 즉, 불완전한 가정을 기반으로 하고 있는 위 방정식은 다음과 같은 질문에 맞부딪치게 된다.

  • 1가구는 4인으로 구성되는가?
  • 1인당 소비하는 장바구니는 (최소한 합계금액이라도) 비슷한가?
  • 1주일에 한번 방문하는 것이 맞는가? 다른 주기로 방문한다면 1주일 평균 장바구니 금액은 비슷한가?
  • 대형 슈퍼마켓 대신 편의점이나 집 앞 소형 마트에서 구매하는 비중은 얼마인가?
  • 시장 점유율은 항상 고정인가? 수시 판촉 행사로 매일처럼 널뛰기 하는건 아닌가?
  • 설, 추석, 연말 등의 시즌에도 매출액 비중은 비슷한가?

위 방정식은 52주를 곱하고 있기 때문에, 제기된 질문에 조금만 다른 답을 하더라도 이는 전체 매출액 예측치에 매우 큰 영향을 주게 된다.

각 변수간 연관관계는 곱셉이나 덧셈같은 선형(Linear) 관계인가?

앞서 30만 가구 중 33%가 우리 슈퍼마켓을 방문한다고 가정했다. 그렇다면 우리 동네 30만 가구의 소득 수준은 비슷할까? 소득 수준이 비슷하다면, 혹은 다르더라도 소비 수준은 비슷할까? 소비 수준이 비슷하다고 가정하더라도, 소비 수준이 평균과 분산만 쳐다보면 되는 단순한 정규분포 구조를 따르고 있을까?

경제학 교과서에 나와있는 소득 구조에 대한 그래프들은 최상위 층이 대부분의 소득을 독점하고 있다고 입을 모아 말하고 있다. 또한 각 국가별 분배구조가 어떻게 이루어지고 있는지를 밝히는 수 많은 지표들이 존재한다. 일각에서는 지니계수를 반영하여 해당 방정식을 계산하면 된다고 지적하지만, 소득구조는 대부분 포아송 분포 또는 로그 정규분포 형태를 갖기 때문에 지니계수를 반영한다고 해서 계산이 정확해지기는 어렵다. 또한 정규분포, t분포와 같은 좌우대칭형 종 모양 분포가 아닌 분포들은 3차 모먼트(moment) 이상의 정보를 반영해야 정확한 계산이 가능해진다. 예컨대 자료의 대부분이 왼쪽으로 치우친 분포에서는 평균과 최빈값의 차이가 발생한다. 이 상황에서 단순 평균을 계산한다면 과다계상된 매출액이 나올 것이다.

시장이 고정적일 것이라는 가정 또한 비판의 여지가 존재한다. 동네 마트 주변에 수시로 다른 업체가 진입하고 있거나, 주민들이 다른 동네 마트를 쉽게 다녀올 수 있는 구조거나, 이커머스 회사들의 할인 쿠폰 마케팅 한번에 매출액이 엄청나게 크게 움직일만큼 시장 상황이 다변수에 영향을 받고 있다면 해당 방정식을 통한 예측 정확도는 현저히 낮아질 것이다.

선형 방정식으로는 더 이상 불가능한 도전

앞서 언급했듯 위 방정식의 각 변수간 연관관계는 단순 곱셈이나 덧셈으로 표현해서는 안된다. 수학을 이용한 모델링을 하는 분야의 경우 단순 곱셈, 덧셈으로 구성된 인과 관계를 선형(Linear) 관계가 있다고 표현하고, 평균 및 분산 이외의 3차, 4차 모먼트를 확인하거나 제곱, 세제곱과 같은 고차항을 포함한 여러 변수들의 결합된 영향을 보거나, 지수 함수 수, 로그함수 등의 형태를 이용해야하는 경우에는 비선형(Non-linear) 관계를 가지고 있다고 표현한다.

해당 예시로 돌아와서 2인 가구일때 10만원의 장바구니였다고 4인 가구에 20만원의 장바구니를 구성하는게 아닐 수 있다. 식구가 늘어나면 집에서 요리해 먹는게 저렴하고, 2인가구는 맞벌이 부부라면 외식을 하는 일이 잦을 수 있기 때문이다. 나아가 6인 가구의 경우 아파트 단지 평수 및 도시-농촌 거주 여부에 따라 2인가구에서 4인가구로 갔던 장바구니 니 구매액 관계가 4인 가구에서 6인 가구로 갈 때 그대로 성립하지 않을 것이다.

아래의 그래프를 하나 보자.

  • 직선이 A
  • 거의 진폭이 없는 그래프가 B
  • 가장 아래 위 진폭이 심한 그래프가 C

이다.

선형 관계를 가진 A 함수를 이용해서 진폭이 매우 심한 C 함수를 매칭하는 경우, 위의 그래프에서는 가로축 좌표값이 (0,1,2,3,4,5)인 경우, 6번만 일치한다. 다시 말해서 전략 컨설팅의 선형 ‘케이스 풀이’를 통해 변수간 비선형관계를 복잡한 현실 세계를 예측한다고 했을 때, 높은 수준의 정확도를 기대하기는 어렵다는 것이다.

그동안 인류가 선형 관계식으로 대부분의 문제를 풀 수 있었던 이유는 많은 문제들이 B 정도의 현실복잡도를 갖고 있었기 때문이거나, 우리가 목표하는 단위가 분기, 년 등으로 시점이 정해져 있어 특정 포인트(위 그래프에서는 1,2,3,4,5에 해당한다)들만 예측하면 되었기 때문이다.

시간을 더 들여서 예측 정확도를 높일 수 있다?

일각에서는 제대로 시간과 노력을 들여 모델(방정식)을 만든다면 C 그래프를 만들어 낼 수 있다고 말한다. 그러나, 제 3자의 개입이 비주기적으로 나타나면서 시장을 바꾸는 상황을 위 단순 예측 모형으로 맞추려고 하는 것 자체가 근본적으로 잘못된 접근에 해당한다. 또한 C 그래프 또한 평면 위에 있기 때문에 1변수 모델의 한계를 뛰어넘지 못하고 있다. 3, 4, 5차원 공간으로 그려야할 다양한 변수가 영향을 미치고, 각 변수들이 본인이 통제할 수 없는 상황에서 위와 같은 단순 방정식이 좋은 퍼포먼스를 보여주기는 어렵다.

위와 같은 상황의 경우 시간을 더 들여서 A 그래프를 C 형태 그래프로 맞추는 것이 아니라, 마르코프 결정 과정(Markov Decision Process)의 Action, Strategy, Outcome 조합을 두고 시뮬레이션을 하는 Q-learning과 같은 절차로 복잡한 변수간 비선형 관계를 갖는 현실 세계를 모델링하는 작업이 필요하다. 다시 말해서, 시간을 더 들여서 고민해보는 문제가 아니라, 완전히 다른 레벨의 지식이 필요하다는 것이다. 이를 더 구체적인 예시로 확인해보자.

중앙은행이 통화정책을 결정하는 보고서를 만드는 프로세스

방법1. 경제학자가 풀어내는 방식

당신이 거시경제학에서 초저금리 중에 팽창 통화 정책은 실물 경제에 직접 영향을 미치지는 못하지만 초단기채권 금융시장에 교란을 줘서 투자자들이 장기채에 투자하게 되도록 만드는, 결국 장기채 금리가 내려가서 기업들의 장기채 발행을 유발할 수 있다는 종류의 논문을 쓰고 경제학 박사 학위를 받은 다음, 중앙은행의 금융통화정책 결정팀 핵심 연구위원으로 취직했다고 가정해보자.

금융통화위원회 위원이 당신에게 이번에 금리를 올리자고 이야기를 하고 싶은데, 어떤 효과가 있는지 보고서를 하나 만들어 달라고 했다고 해 보자. 이를 위해 당신은 우선 금리 올리려면 중앙은행이 취하는 정책 수단이 뭐가 있는지 살펴볼 것이다. 예를 들면 통화안정채권을 시장에 팔 수도 있고, 시중은행들에게 이연평잔을 계산하는데 압박을 줄 수도 있다.

그 중 현재 시장 상황, 특히 지난 몇 달간의 금융 시장을 보고 합리적이라고 판단되는 몇 가지 정책 수단을 골라 어떤 규모로 시장 개입을 하면 0.25%, 0.5% 금리가 오를 것이며, 거기에 맞춰 금융시장이 얼마나 위축되고, 따라서 실물 경기가 얼마나 위축될지를 계산하기 위해 거시경제모형에 수치를 입력해볼 것이다. 그 모델은 몇 백개의 변수가 뒤얽혀 있을텐데, 박사 시절에 공부할 때는 거의 대부분의 변수를 고정시켜놓고 내 연구 주제에 직접 영향을 주는 인과 변수들 몇 개만 넣은 소형 모델을 봤었는데, 현실 상황의 모델이 매우 복잡해져서 기존 연구와는 다른 새로운 도전을 하게 될 것이다.

또한 매우 높은 확률로 결과가 예상과는 다르게 출력되어 이를 보정해주어야하는데, 이를 위해 박사 시절 봤었던 논문의 시장의 특정 상황을 고려하는 변수를 추가를 해보면서 결과를 보정하는 작업을 계속 거치게 될 것이다. 심지어는 본인이 연구할 때 확인했던것처럼 장기간 초저금리가 지속되고 있기 때문에 그 논문과 본인 논문을 결합하는 새로운 모델을 만들고 테스트를 해 봐야할 수도 있을 것이다.

방법2. 컨설턴트가 풀어내는 방식

지난 10년간 금리를 올린/내린 데이터를 살펴보고, 0.25%, 0.5%씩 증감이 총 15차례 있었다는 데이터, 그 때 각각 경제성장률, 각 산업별 성장율이 어떻게 변했는지 중앙은행의 분기별 산업 보고서를 인용해서 그래프를 만들 것이다. 그 다음엔 IS-LM 같은 더 이상 경제학계에서는 잘 쓰이지 않는 그래프를 놓고 LM 커브가 좌측으로 이동하면서 경기 위축이 발생하는데, 그 움직임은 아까 위에서 구한 저 그래프의 결과값과 비슷하도록 그래프 보정을 해 놓을 것이다.

또는 초저금리로 인해 경제 정책이 반영되는 방식이 달라진다는 사실을 자사 컨설팅에 반영하기 위해 월 스트리트 저널에서 15년 경력의 기자를 전문가로 초빙해 자문을 구할 것이다. 경제 정책에는 외연이 깊지 않은 그 기자가 미국에서는 초저금리 때문에 연방준비제도(FED)에서 관련 연구를 하는 Harvard, MIT, U Chicago, Princeton 출신 경제학과들을 대규모로 초청한 프로젝트를 진행중이라며 관련 조언을 해준다면, 컨설턴트는 이자율을 올리면 각 산업별로 어떻게 영향을 받아서 산업별 성장률이 영향을 받고, 산업별 비중이 우리나라에 어떻게 나뉘어 있는데, 그 두 값을 곱한 값으로 국가의 경제성장률이 어떻게 움직일 것이라고 예측하는 단순하지만, 겉으로 보기에는 매우 화려해보이는 PPT를 준비할 것이다.

왜 전략 컨설팅이 사양산업이고, 머신러닝이 떴을까?

저 위의 전략 컨설팅 스타일 발표 자료와 논리 전개 방식은 높은 수준의 전문 지식을 필요로 하지 않는다. 자기 산업 분야에 특화되어 있는 몇몇 업계별 경력직 컨설턴트가 아니면, 대부분이 업계 지식 및 논리를 통해 수백개의 가정을 이용해 본인들의 논리를 만들어내고 있다.

하지만 위의 논리는 대부분은 선형 관계의 논리에 국한되어있다. 학문적인 깊이, 사고의 깊이, 지식의 깊이를 통해 남들이 보지 못하는 지점을 바라봐야하는데, 그러한 논리들은 다른 차원의 지식을 체화하면서 만들어낼 수 있는 논리, 즉 비선형관계에 기반한 논리들이기 때문이다.

머신러닝 혹은 데이터 마이닝, 데이터 사이언스는 데이터에서 쉽게 찾아낼 수 없는 다중 패턴(Mutl-pattern), 비선형 패턴을 찾아내기 위한 계산통계학적인 방법이다. 기존에는 거의 대부분의 데이터 분포가 정규분포에 수렴했고, 그래서 특별히 비선형 패턴을 찾아야할 필요가 없었다. 그러나 오늘날은 슈퍼마켓 매출액 하나를 계산하더라도 다양한 시장참여자들의 행동을 모두 고려하는 마르코프 결정 과정이 필요한 시대고, 위의 선형 방정식으로 남들이 보지 못하는 인사이트를 도출하는 것은 불가능에 가깝다.

나가며 – 산업계가 컨설턴트를 외면하는 이유

A를 위한 방정식을 만드느니 경험이 많은 업계 종사자들은 차라리 경험에 따른 자신의 직관을 믿고 사업을 할 것이다. 컨설턴트에게 수억원을 주고 받은 A보다 경험에서 나온 직관이 B에, 어쩌면 C에 가까울 확률이 더 높기 때문이다.

위에서 지적한대로,

  • 무수히 많은 가정에 기반해야하고,
  • 그 가정들이 제대로 검증되지 않은 경우가 빈번하고,
  • 더 나아가서 그들의 결론은 Linear 방정식에 국한되어 있어서

오늘날의 전략 컨설턴트가 가지고 있던 엣지는 점차 사라지고 있다. 데이터는 비선형 방정식을 필수적인 접근 방법론으로 삼을만큼 고도화 되었고, 컨설턴트의 선형적 문제 접근은 우리시대의 비즈니스에 유용한 인사이트를 주기에는 명확한 한계점이 존재한다.

 

Similar Posts