“빅”데이터 컨설팅(?)이 어려운 이유

17
pabii research

학부 3학년이었던 2006년 11월의 어느 날이다. Bain & Company라고, 꽤나 유명한 전략 컨설팅 회사에 면접을 갔었다. 그 때 인생 처음으로 정장도 한 벌 샀고, 겨울이라 춥다고 좀 비싸보이는 코트도 한 벌 사서 허겁지겁 면접을 갔다. 태어나서 첫 면접이라 참 시원하게 말아먹고, 뭐 어찌어찌해서 Bain & Company의 모든 컨설턴트들이 (너무 빡세서) 안 할려고 했다던 컨설팅 건 하나에 인턴 자리를 얻게됐다. 그 두 달이 채 안 되는 기간동안 새벽 2-3시 전에 집에 가는 일이 거의 없이 일만하던 그 무렵, 필자는 컨설팅은 절대로 안 하겠다고 백번 다짐을 했었다. 데이터를 까서 뭔가 제대로 분석은 없고, 단순하게 “감”을 바탕으로한 슬라이드와 해외 사례들만 덕지덕지 붙은 그 슬라이드 150장이 지금도 가끔 생각난다. 오죽했으면 인턴 마지막 주에 윗 분들이 발표 들어가셨을 때 True North라는 Bain & Company 로고를 뒤집어서 True South로 바꾸고 혼자 히히덕거리며 소소한 분노를 표출했었다.

꼭 1년 후, Deutsche Bank IBD팀에서 역시 밤을 꼴딱새며 일을 하고 있던 그 무렵, Bain & Company 에 1년 반 정도 경력이 있으신 분이 필자의 팀 인턴에 지원을 하셨더라. 혹시나 싶어서 알고 지내는 형님을 통해서 물어보니 역시 예상대로 그 형님의 고딩/대딩 선배님이시고, 얼마전에 컨설팅은 정말 아닌 것 같다는 생각에 그만두고 나가셨다고. 필자가 IBD 업무는 결국 접대와 술자리의 연속인 것 같아서 도망나오고 싶던 시절이었기 때문에, 이 분을 꼭 뽑아서 (죄송하지만) 내 대타로 삼아야겠다는 생각에 면접을 봤다. 그 때 레쥬메에 쓰신 컨설팅 프로젝트 4건은 고객사 이름을 안 넣었는데도 어느 회사에서 어떤 일을 하셨을지 눈에 훠~언~히 보이더라. 데이터로 증명할 수 없고, 검증할 수 없는 이야기를 “멋있는” 슬라이드로 만들어내야하는 압박에 시달리면서 아마 자존감에 많은 상처를 입으셨을 것이다. 필자가 그렇게 도망나와서 공부를 더 하겠다고 박사 학위에 도전장을 내밀었던 것처럼, 그 분도 괜히 IBD 지원하지 말고 필자와 유사한 길을 걸으셨어야하지 않을까…어차피 뱅킹이나 컨설팅이나 그 나물에 그 밥인데…

별로 기억하고 싶지 않은 첫 직장 이야기인데, 굳이 외부에 공개하는 글에 언급하는 이유는, 주말에 비슷한 류(?)의 고민을 하시는 자칭 필자의 “팬”이라는 분의 이메일을 받았기 때문이다.

 

1. 우리나라 “빅”데이터 컨설팅의 현황

가끔 필자더러 “빅데이터 컨설팅에 관심없냐?”는 질문을 하시는 분들이 있다. 이미 다른 글에서도 몇 번 언급했듯이, 그렇게 질문하시는 회사의 대부분은 제대로된 데이터가 없다는 걸 벌써 몇 번이나 겪어봤기 때문에 필자는 반응이 뚱~ 하다. 설령 필자가 기대하는 수준의 데이터가 있다고해도 필자가 해주는 분석을 이해할 수 있는 사람이 없을텐데라는 생각에 몇 번 회사들이랑 미팅해보고는 맘을 접었다.

그 “팬”이라는 분이 “빅”데이터 컨설팅을 해주는 회사에 다니시면서 갑갑한 경험을 하신 사례를 장문의 이메일에 읊어주셨는데, 읽다보니 저 위에 쓴 필자의 사회 초년병 시절이 새록새록 떠오르더라. Balance 안 맞는 valuation model 템플릿 던져주면서 그걸로 현금 흐름 예측한 자료 만들라길래 balance가 안 맞는 걸로 어떻게 모델을 만드냐고 얼굴이 울그락붉그락해져서 질문하니 그냥 시키는대로 하라던 이사님 얼굴도 떠오르고.

이 분은 그래도 나름대로 학위와 짬이 골고루 갖춰진 팀에서 일을 하시는 것 같은데, 메일에 쓰신 내용만보면 통계학 모델링의 기본을 놓치고 있는 이야기가 너무 많다. test-stat을 무시하고 단순하게 coefficient만 본다던가, multicollinearity를 무시한다던가, 변수 선택을 하는데 느닷없이 Random Forest의 Variable Importance를 쓴다던가 하는 말을 보고 참 황당했다. “팬”이라는 분의 윗 사람들은 다들 공부하신 분일텐데, coefficient만 본다는 건 정말 고딩 수준이라는 이야기고, multicollinearity를 무시한다는건 학부 1학년 때 배우는 선형대수를 모른다는 이야기고, Random Forest의 Variable Importance를 회귀분석의 변수 선정용으로 쓴다는 건 Euclidean distance 모델과 Tree distance 모델의 거리 계산 기준이 근본적으로 다르다는 걸 제대로 모르고 있기 때문에 하는 일들이다.

데이터를 (거의) 안 쓰는 컨설팅 회사, 데이터를 쓰기는 하지만 엑셀로 단순 작업만하고 사실은 음주가무 접대가 더 중요했던 뱅킹까지, 나름대로 당시 우리나라 최고의 직장들을 때려치우고 나와서 대학원으로 향할 때는 그래도 박사님들은 좀 더 제대로 된 작업을 하실 줄 알았다. 그런데 교수, 박사 타이틀을 달고 있으신 분들이 저런 식의 주먹구구식, 수학 제대로 못 쓰는 작업을 하면서 돈 벌이에 나선다니….

 

2. “빅”데이터 컨설팅이 “제대로” 될려면 – 시장 교육

필자가 뱅킹을 그만두고 나올 때 가까운 친구들이 항상 했던 말이 있다. “타협”을 해야한다고. 어차피 니가 다 맞는거 아니지 않냐고. 다들 그렇게 타협하고 살고, 그렇게 버는 돈으로 먹고사는 거라고. 니가 수학적으로 완벽한 작업을 해서 줘도 어차피 고객사는 못 알아먹는다고. 그들이 원하는 답을 만들어주는게 더 큰 가치가 있는거라고.

그 친구들의 이야기를 들을 때 머리 속에 딱 떠올랐던 생각이 미국 최대 회계 부정 스캔들인 “엔론(Enron)” 사건이었다. “사소한(?)” 회계 부정만 눈 감고 넘어가면 그 집단의 인사이더들은 다 잘 먹고 살 수 있거든. 엔론은 물론이고, 회계 감사하던 회계 법인, 엔론에서 수임료를 꼬박꼬박 받던 법무법인 등등 관련 “지식인” 그룹들은 그 부정을 눈 감아 주기만 하면 당장 돈 벌이를 할 수 있으니까 쉬쉬하고 넘어가버리는 것이다. 더 웃긴건, 그렇게 대형 비리 사건이 터졌는데 정작 관련 회계사나 변호사들은 싹 다 도망가버렸더라. 아마 저 위의 “빅”데이터 컨설팅도 그렇겠지. 위험하다 싶으면 발을 슬쩍 빼내고 모른체로 일관하겠지.

어차피 “담합”은 내부자가 아니면 깨기 어렵다. 청문회 영상을 보면 끝까지 모르쇠로 일관하는 핵심 관계자들을 얼마나 많이 봤는가?

이 문제는 결국 돈을 주고 그 서비스를 쓰는 “갑”들이 얼마나 똑똑한지에 의해 해결의 실마리가 풀릴 것이라고 본다. (국민이 똑똑해져야 언론이 제대로 일을 하고 비리를 파헤치는 것처럼.) 금융기관 고위직 중에 세일즈로 올라간 분들을 제외하면 나머지 최고위층 인력들은 대부분 경제학 박사나 유사한 타이틀을 들고 있다. 이게 단지 그 타이틀에 세상이 굴복하기 때문이기도 하겠지만, 복잡한 논리를 이해할 수 있으려면 그만큼의 학문적 훈련을 받았어야한다는 걸 임명권자도 은연중에 알고 있기 때문일 것이다.

“팬”님의 메일에도 우리나라 “빅”데이터 컨설팅 분위기가 저품질 저비용을 찾아다니는 느낌이지, 뭔가 제대로된 수학, 통계학을 이용한 분석을 이해하고 받아들이는 분위기가 아닌 것 같다고 하소연을 해 놓으셨더라. 시장 수준이 낮으니까, “갑”들이 교육은 안 받았으니까, 그저 화려한 세일즈 피치에만 관심을 갖고, 그 내용 중에 대부분은 못 하는 내용이라는 걸 이해 못하고 있는거다. 마치 10년 전 금융 시장에서 기업 가치 평가 모델을 만들면 “무슨 기계가 있어서 거기 집어 넣으면 툭~ 튀어 나오는거야?” 라고 묻던 한심한 어느 은행 고위직 관계자처럼. “팬”님의 눈에도 그저 새로운 기술이 나왔다면 열광하고, 그걸 할수 있다고 주장하는 사람들 중에 그럴듯한 타이틀이 있는 사람들에게 돈을 쓰고, (당연하겠지만) 결과물이 안 좋으니 실망하고, 바보 “갑”들 때문에 그렇게 시장이 활력을 잃어가는 상황이 눈에 들어오시는 것 같다.

저 위의 실력 없는 “을”들이 시장을 망쳐놓는 상황, 그리고 그 실력을 제대로 평가하지 못하는 “갑”들이 그저 타이틀에만 현혹되는 상황을 깨는 유일한 방법은 시장이 성숙하도록 사람들을 가르치는 수 밖에 없다. 그런데, 금융시장에서 자사주와 M-M Theory를 제대로 이해 못하던 사람들을 보니, 결국 그 사람들이 퇴출되도록 한 세대가 지나야 문제가 해결이 되더라. 나름대로 Turn-over가 빠르고 빨리 은퇴를 해야하는 증권사에서 10년 정도가 걸려 한 세대가 정리되니 이제 좀 덜떨어진 소리하는 사람이 없어진 걸 보면, IT업계에서 데이터 분석 이야기하는 분야도 최소한 비슷한 세월이 걸려야 정리되지 않을까 싶다.

물론 그 전제조건은, 새로운 인력이 “제대로” 교육 받고 시장에 진입해야한다는 거다. 썩은 물에 썩은 물이 유입된다고 물이 깨끗해지는건 아니니까.

 

3. “빅”데이터 컨설팅이 “제대로” 될려면 – 데이터 베이스 구축

가끔 필자의 수업을 들으시고는 우리 회사에도 이런 분석을 적용해보고 싶다고 말씀하시는 분들이 꽤나 있는데, 정작 그렇게 말씀하시는 분들 대다수는 제대로 된 데이터 베이스를 안 갖고 계신다. 올 가을에 실리콘밸리랑 한국에 듀얼로 운영되는 스타트업에서 C-level이신 분을 한 번 만났다. 필자더러 개발자냐고 물을만큼 정말 아무것도 모르는 티, 전혀 준비 안 한 티가 너무나서 차나 한잔 하라고 소개시켜준 친구에게 나중에 화를 내야할만큼 깝깝하신 분이었는데, 실리콘밸리에서 나름 명성있는 VC한테 투자도 받고, 사업 초반부도 아니고 서비스가 돌아간지 한참이 되었건만, 정작 데이터 베이스 구축에는 한번도 관심을 안 가진 티가 너무 나더라.

한국 상황이 딱 그렇다. 뭔가 “빅”데이터 이야기는 많이 들었는데, 정작 데이터 베이스 구축도 제대로 안 되어 있고, 그거 돈 들어가는거 아니냐, 그렇게 돈 들어가면 ROI 나오냐는 이야기가 먼저 나온다. 자기네들이 지금처럼 주먹구구식 통밥으로 운영해도 크게 문제 없는데, 굳이 그렇게 돈을 들여서 서버를 구축하고 데이터를 모아야하냐는 이메일도 받은 적이 꽤나 있다. 더 웃긴건, 그런말을 하면서 자기네 회사에 TensorFlow 알고리즘을 적용하고 싶은데 어떻게 하면 되냐, 필자의 수업 한 달 듣고나면 할 수 있냐고 묻더라. (욕 좀 썼다가 내 블로그를 더럽히고 싶지 않아서 삭제한다. 어휴~)

“팬”이라는 분이 보내신 메일에 보면 데이터 베이스 관련 개발 & 솔루션 판매업을 하는 회사에서 전산이나 컴공 전공인 사람들이 요새 트렌드에 맞춰 데이터 분석 프로젝트를 해볼려고 하는데, 결국 뭔 말인지 모르니까 인터넷에 돌아다니는 코드 몇 줄 바꿔서 치는 식으로 프로젝트해주고 있다는 이야기도 있었다. 솔직히 이런거 너무 많이 봐서 이젠 놀랍지도 않다.

제대로 이 서비스가 돌아갈려면, 데이터 베이스가 안정적으로 돌아갈 수 있도록 구조화해주는 팀, 그 데이터를 바탕으로 분석하는 팀, 그리고 그 데이터 서버를 이용해서 다른 돈벌이를 할 수 있는 팀 같은 여러 팀 업무가 유기적으로 돌아가야한다. 지금 시장은 이런 이해가 제대로 갖춰져있지도 않고, 또 인력도 부족하다보니 그냥 “데이터”라는 단어가 들어가면 다 잘하는가보다, 데이터 사이언티스트면 데이버 엔지니어링도 잘 하겠지라고 생각하는 거다. 더 심하게는 데이터로 뭔가 작업만하고 있으면 무조건 “빅”데이터를 다루는 “데이터 과학자”라고 우기는 판국이니…

필자의 수학&통계학 시간에 간략하게 수학 모델 리뷰를 한다. 데이터가 엉망으로 들어가면 제 아무리 모델이 좋아도 모델의 결과값은 엉망이 될 수 밖에 없다고. 데이터 사이언스 수업 시간에는 Garbage In, Garbage Out (GIGO)를 실제로 보여준다. 어차피 돈 벌려고 하는 수업도 아닌데, 시장이 좀 빨리 성숙해서 그런 강의는 시시해서 안 듣는 시절이 왔으면 좋겠다.

 

나가며

2017년 9월에 수업에 찾아오셨던 모 통신사 개발자 분이 수업 끝나고 뒷풀이 자리에서 그런 말씀을 하시더라. 처음 수업에 오기전만해도 어느 대학에서 나온 “서버 안정성에 대한 머신러닝 분석~” 같은 보고서가 참 대단하다고 생각했었는데, 모델들이 어떻게 구성되고, 이걸 어떻게 구현하는지를 좀 이해하고 난 다음에 다시 보고서를 보니 주먹구구식으로 엉망으로 만든 티가 너무 나는게 보였단다.

아마 그 보고서를 쓴 분도 저 위의 “팬”이라는 분이 겪은 좌절감과 비슷한 감정을 겪으시면서 썼을 것이다. 데이터는 없고, 있는 데이터는 오류 투성이라 제대로 classification은 안 되고, 그렇다고 오류 투성이고 해결 불가능이라는 결론을 도출하는 보고서도 못 내겠고…

그 개발자 분의 쫑파티 자리 코멘트를 보면서 한편으로는 한국 시장의 수준에 안타까움을 느꼈지만, 또 다른 한편으로는 저 정도로 열정있고 실력있는 분이라면 한 달만에 제대로 보고서를 볼 수 있는 눈이 생길 수 있을만큼 한국 시장에는 좋은 인재가 참 많다는 생각도 하게됐다.

가끔 사람들이 그런다. 왜 한국 왔냐고. 미국에 있는게 훨씬 더 낫지 않냐고. 여러 이야기 끝에 항상 이렇게 대답한다. 한국에는 “흙 속의 진주”가 정말 많다고. 사업할 수 있는 환경은 미쿡보다 좀 덜 좋을지 몰라도 인재라는 측면에서는 진짜 좋은 시장이라고. 돈 안 되는 강의와 돈 안 되는 블로그지만, 그래서 귀찮게 뭐하러 운영하나는 생각도 하지만, 그래도 가끔씩 “흙 속의 진주”들을 만나는 재미가 쏠쏠해서 못 끊겠다. 어서 빨리 그 분들이 흙 밖으로 나오도록 해야할텐데…

Similar Posts