AI사기꾼 퇴출운동을 시작합니다

투자업계 분들과 만나다보면 이런저런 소개로 자칭 AI전문가라는 분들을 가끔식 보는데, 자주 듣는 이야기들을 몇 개 정리해보면

우리나라에 AI한다는 사람들 중에 제대로인 사람들 있냐?
데이터 팔아서 돈 번다는 회사치고 믿을데가 어딨냐? 다 사기지
돈 안 되는 온라인 광고쪽에 괜히 힘빼지 말고 AI쓰는 다른 사업 찾아라
Bio에 AI 붙이면 회사가치 엄청나게 높게 받을 수 있어

등등이다.

오해와 편견 때문에 참 힘든데, 없애려면 어떻게 해야할까? 일단 저 오해들에 대한 짧은 반박들을 정리해보자.

우리나라에 AI한다는 사람들 중에 제대로인 사람들 있냐?

좀 더 직접적인 표현으로 바꾸면 VC업계가 “AI는 사기인거 같다”고 짐작하고 있는 단계라고 봐도 될 것 같고, 1-2년 경험치가 더 쌓이면 “AI는 과장된 사기다”라고 확정을 짓겠지.

이게 너무 당연한 결과물인게, 우리나라에 AI한다는 사람들이라고 VC가 투자한 사람들은 죄다 공학도들, 그것도 상당수는 학부 수준의 개발자들이다. 교수하는 선배 한 분이 썼던 표현대로

학부생이 한다는게 다 그렇지 뭐

라는 표현이 그대로 적용되는 사람들한테 돈 투자해놓고 결과물이 안 나온다고 징징대는게 VC업계의 현실인 것이다.

대학원 출신이면 다를까? 파비클래스 수강생들 상당수가 국내 유명 IT회사에서 “인공지능” 타이틀의 부서에 핵심인력으로 있거나, 혹은 연구기관에 계시는 분들이다. 다들 충격적이라고 생각이 들만큼 모르더라. A/B test가 뭔지 제대로만 알아도 톡으로 유명한 K사에서 “브레인” 취급 받는거 알고 있나?

다른 글에서 밝힌대로, 인공지능 대학원을 만든다면서 공학도들만의 잔치를 열고 있고, 과기부와 정통부를 위시한 국가 기관은 개발자가 AWS의 Neural Net 코드 몇 줄만 베껴쓸 수 있으면 인공지능 프로젝트 지원한다고 국민의 혈세를 쏟아붓고 있으니 당연한 결과다.

얼마전에는 “설명가능한 AI (explainable AI)”라는 프로젝트로 국민 혈세 150억이 들어간 프로젝트의 일원이라는 어느 스타트업이 시리즈 A투자에 무려 80억이나 투자금을 받은 경우도 봤다.

파비클래스 수업을 들으신 분들은 다 아시겠지만, Neural Net이라는게 설명불가능한 블랙박스가 아니라, Logit 같은 Linear regression에 특정 Kernel을 적용한 함수들을 Tree 구조로 Nesting해서 계산하는 통계학 알고리즘이다. 여기서 데이터를 입력하는 방식이 Tree 구조의 장점을 살리기 위해서 Ensemble 스타일 샘플링을 활용하고 있고, Tree 구조의 약점인 Pruning 작업을 Random Forest 과 직관적으로 동일한 Drop-out을 활용해서 피하고 있을 뿐이다. 전체적인 구조는 Layer 하나하나가 Non-normal 가정을 하고 Factor Analysis를 하는 구조라고 생각할 수 있고, Non-normal이라 비선형 관계의 Latent variable 추적에 쓰이는 Information Component Analysis (ICA, PCA의 상위호환 버젼)의 네트워크형 구조에 불과하다. 당연히 Neural Net을 아무거나 갖다 쓰면 되는게 아니라, 위의 논리에 맞춰서 합리적인 모델을 만들어야하고, 각각의 계산 파라미터들은 가정이 얼마나 적합한지 보여주는 값일 뿐이다. 계산값을 다 보고 추적할 수 있는데 무슨 얼어죽을 블랙박스냐…에효..

계산통계학을 어느정도 공부한 사람들 눈에는 상식에 불과하고, 수리통계학 훈련이 잘 된 사람에게 1달간의 탄탄한 교육을 통해 충분히 전달할 수 있는 지식으로, 보통 10-20억대 투자가 이뤄지는 시리즈 A 투자 라운드에 80억원이나 투자금을 쏘는 VC들에게 뭐라고 해야할까?

당신들이 속아놓고 왜 제대로 하는 사람들마저 싸잡아서 욕을 하냐고 불평할 수 밖에 없지 않나?

데이터 팔아서 돈 번다는 회사치고 믿을데가 어딨냐? 다 사기지

그 동안 한국와서 데이터 팔아서 사업한다는 회사들에 파비클래스에서 말하는 데이터 전처리를 아는 사람을 단 한 명도 본 적이 없다.

사회과학 연구실에서 자기 논문에 데이터 작업하는 사람들에게 물어봐라. Raw Data를 그대로 쓰는 경우가 얼마나 되는지. 데이터 전처리에 전체 연구 기간의 7할 이상을 쓰는 경우가 허다할 것이다.

요즘 “빅”데이터를 시장에 적용한다는게 데이터 셋의 종류과 크기, 목적만 연구실과 다를 뿐, Noise가 가득한 데이터를 정리해야한다는 기본 명제는 바뀔리가 없다.

데이터 전처리라고 구글링해서 보면 제일 자주 보이는 내용이 NA를 제거하는 경우인데, 공대생들이 제대로 통계학을 공부하고 Estimation Theory를 통해서 데이터 전처리하는 과정을 겪어봤어야 NA 항목 제거는 데이터 전처리 작업 중 가장 기계적이고 단순한 작업이라는 사실을 인지하겠지.

파비클래스 수업 내내 이야기를 한다. 단순히 2단계 Regression 같이 보이는 2-Stage-Least-Square (2SLS)도 이미 데이터 전처리 스텝 중 하나이고, k-NN, k-Means 같은 “머신러닝 테크닉”들이 사실은 데이터 전처리에 쓰인다는 사실, Decision Tree 같은 모델들이 Classification에 쓰이는게 아니라 변수 재정의하는 스텝에 쓰인다는 사실, SVM의 Non-linear kernel이 단순히 Classification 계산을 위한게 아니라 데이터를 N+k 차원의 공간으로 재처리해서 작업하는 아이디어의 수학적인 표현이라는 사실 등등 “머신러닝 교과서”라는 곳에 있는 모델들이 얼마나 책 속의 지식에 불과하고, 실제로 데이터 작업을 하고 있는 사람은 그런 지식들을 어떻게 활용해야할지 머리싸매고 고민해야하는 작업이라고.

대기업, 스타트업, 중소기업 그 어느 곳을 가도 개발자 출신으로 이쪽 업무를 하는 사람들이 회의 중에 공통적으로 하는 말들이 있다.

아, 잘 모르겠구요, 그냥 자주쓰는 Library나 하나 알려주세요

그런거 없다. 수학적인 방법론은 결국 직관을 모형화한 것에 불과하다. 데이터를 보고 어떤 직관으로 어떻게 모델링해서 내가 원하는 결과물을 만들어내야할지, 그래서 무슨 전처리를 해야할지 고민하는게 “연구 (Science)”하는 작업이라는 걸 모르니까 “개발”하는 이야기만 하는거다.

그렇게 데이터에 남들 다 알고 있는 전처리와 바보같은 사람들이 너도나도 갖다붙이는 Neural Network로 돈 벌 수 있는 모델이 나온다면 기적이겠지.

돈 안 되는 온라인 광고쪽에 괜히 힘빼지 말고 AI쓰는 다른 사업 찾아라

이렇게 이야길 해 보자. 아이폰 만드려는 사람들한테 팬택 투자하고 손해 본 사람들이 찾아와서

스마트폰 그거 만들어봐야 돈 안 되더라. 폰 말고 딴거에 니네 기술력 쏟아넣어봐라

라고 말하면 어떻게 반응하는게 정상일까?

(AI라고 이름만 떠들어대면서 정작 기초적인 통계학도 모르는 사상누각의 지식을 갖고 있고, 데이터로 돈 벌겠다면서 정작 데이터 전처리에 쓰는 수십, 수백가지 통계학적 가능성들을 하나도 모르는 바보들이 말아먹었으니까) 그걸 다 알고 있는 너도 말아먹을 것 같다

라는 평가에 뭐라고 답을 해 줘야할지 모르겠다.

글로벌 탑 티어 회사에서 남들이 다 1등이라고 생각할 구글을 압도하는 타게팅 알고리즘의 효과를 보고, 그 알고리즘이 어떻게 변하는지에 따라 유저 반응이 달라지는 걸 목격한 데이터 사이언티스트 입장에서, 데이터 전처리가 뭔지도 모르는 개발자들이 대충 만든 알고리즘 때문에 사업의 기대치가 낮아지고, 내 실력이 폄하되면 더 이상 대화를 이어나가기 힘들어진다.

연결재무제표 만들려면 회계사 경력직 그룹을 찾아가야지 왜 난데없이 상고 나온 경리들을 찾아가냐고 ㅋㅋ

상고 나온 경리들이 연결재무제표 못 만들었으니까, 만들어도 구리게 만들었으니까 회계사 짬밥 X년인 너도 못 만들꺼다는 말을 들으면 회계사들은 뭐라고 반응을 해야할까?

요즘 이런 외부 불경제 (Negative Externality)를 겪으면서 자칭 AI전문가라는 공대 출신 짝퉁 전문가들을 이 시장에서 반드시 퇴출시켜야겠다는 생각을 수십번도 더 하게됐다.

경제학에는 중고차 시장을 예로 들면서 Lemon Market에 Lemon(=엉망진창인 중고차)을 식별할 수 있는 정보가 없으면 시장 전체에 Lemon만 남고 멀쩡한 차들은 중고차 시장에서 사라진다는 Akerlof의 모델이 있다. 노벨경제학상을 받은 모델이다.

과기부 – 정통부를 위시한 공대 카르텔이 단단하게 뭉쳐서 공대 출신들에게 저렇게 지원금을 쏟아내고, 언론에 홍보비를 쏟아붓고 있는 이 상황을 어떻게 깨야할까? AI사기꾼을 쫓아내려면, AI사기꾼이 쫓겨날 수 있는 시장 풍토를 갖춰야할텐데, Lemon Market 이론대로 결국 Lemon을 식별하는데 도움되는 정보가 제공되어야 하지 않을까?

필드에서 유탄을 맞아가며 사업하는 사람이 힘든만큼, 탄탄한 통계학 지식을 갖고 연구에 매진하고 있을 교수진들도 힘들기는 마찬가지일 것 같은데….

Bio에 AI 붙이면 회사가치 엄청나게 높게 받을 수 있어

1년 반쯤 전의 일이다. 어느 의대 박사과정 연구생이 파비클래스에 찾아와서 0/1로 표현된 Boolean type의 데이터들에 PCA를 적용해봤더니 결과물이 안 좋다고 하더라. 그러면서 PCA보다 더 “좋다는” tSNE라는 계산법을 써 보는데 잘 안 된다고 했다.

일단 PCA는 데이터의 (공)분산 값을 기준으로 새로운 좌표축 (therefore 변수)을 만들어내는데, 그 변수가 기존 변수들의 선형 결합으로 표현될 수 있는 데이터 전처리 계산법 중 하나다. tSNE는 선형 -> 비선형 결합을 어떻게하면 좀 더 효율적으로 해 볼 수 있는지에 대한 아이디어라고 보면 큰 틀에서 틀리지 않는다. (비선형이 무작정 “더 좋은”게 아니다….제발 좀…)

근데, 0/1로 표현된 Boolean 데이터는 분산이 없다. 사슴, 노루, 사자라는 Category 데이터의 분산은 얼마인가? 분산이 있다고 주장하는 분 본 적 있는데, 도대체 어디서 통계학 공부를 했는지… 말을 바꾸면, PCA계열의 데이터 전처리법이 먹히는 데이터가 아니다. 그렇게 잘못된 접근법을 박사과정 연구생이 잡고 있으면 지도교수가 방향을 제대로 이끌어줘야할텐데, 지도교수인들 제대로 통계학을 배운적이 없으니 다들 암중모색을 하고 있더라.

박사시절 비슷한 상황이었을 때 Homogeneity Index를 만들어서 계산에 활용한 적이 있었는데, 6가지의 다른 변수들이 모두 Category형이어서, 가장 닮은 케이스이면 6점, 가장 닮지 않은 케이스면 0점이 나오는 형태의 새로운 변수 하나를 만들어서 작업을 했던 기억이 난다.

같은 계산법을 쓰실 수 있는 상황도 아니었고, 더더군다나 임상실험에 들어간 사람 숫자가 700명 남짓이던데, 그정도 샘플 사이즈에 0/1이 엄청나게 많은 Sparse matrix형태의 데이터로 Non-linear pattern matching 계산법들을 쓸 수 있을지 회의적이다. 참고로 머신러닝이라고 주장하는 계산법들의 통계학 내에서 학문적 위치는 Non-linear pattern matching이다.

시장에서 Bio 프로젝트에 “인공지능”을 도입했다는 사례들을 여러차례 봤다. 저 위에 언급한 “설명가능한 AI”라는걸 Bio 프로젝트에 대입한다는 이야기도 들었고, 특정 암의 발생 기전을 “인공지능”을 통햬 찾아냈다는 이야기도 봤다.

그런 프로젝트들이 모두 1,000명도 안 되는 소수의 임상 실험 결과값에 Neural Net을 Hidden layer 조합 아무거나 막 넣어서 다 돌려본 상태라는 걸 너무너무 잘 안다. 믿을 수 없으면 의학도들 대상으로하는 AI학회라는 곳에 가 봐라. 자기 모델 어떻게 만들었는지 난이도를 내려놓은 파비클래스 강의 수준으로라도 설명할 줄 아는 발표자를 1명이라도 만나면 기적이다.

아마 지금도 머신러닝 교과서에 나오는 모델 이름들 10개 정도 뽑아서 그 중에 어느 모델이 제일 설명력이 높더라는 식의 피상적인 논문만 내도 의학계에서 AI전문가 취급을 받을 것이다.

회사가치 키워보고 싶은 사람 입장에서 “사기치지 않고” 합리적인 결과물을 만들어 낼 수 있으면 얼마든지 프로젝트에 도움을 주고 싶다. 근데, 당신이 알고 있는 인공지능이 요술봉이 아니라 박사과정 수준의 통계학에 불과하다는 사실을 깨닫고나면 VC들이 지금처럼 과대포장된 회사가치를 인정해줄까?

어느 VC가 Bio쪽 사업을 같이 해 볼 생각없냐, 요즘 Bio가 잘 된다며 설득했던 적이 있다.

개발자들이 제 전문영역인 데이터 사이언스를 한 두달 어깨너머로 대충 배워서 알 수 없는 것처럼, Bio는 제가 한 두달 어깨너머로 대충 배워서 될 영역이 아니라고 생각합니다. 제가 욕하던 사람들의 복사판이 되고 싶진 않습니다.

라고 답변드렸다.

나가며 – 데이터 시장, AI시장을 뜯어고쳐야 한다

시장이 정상화되려면 사기꾼이 퇴출되고, 실력있는 새물결이 유입되어야 한다.

첫째, VC 분들 중 자칭AI 기업에 투자하시는 분들은 우리회사에 찾아와서 자문을 구해주셔도 좋다. 이 업무를 위해 엑셀러레이터로 등록하고, 정식으로 자문 서비스를 해 드릴 준비를 하는 중이다. 그동안 외부 불경제에 힘들었는데, 진정 실력있는 사람들이 시장의 다수가 되면 Lemon market에서 Lemon들이 빠르게 사라지겠지. 다들 사기꾼이라 못 믿겠으면 필요한 업무강도에 따라 지분 관계를 맺고 직접 모델을 만들어 줄 생각도 있다. 매년 말에 학회 같은거 계획해보고 있는데, 거기서 발표하실 수 있도록 기회를 드리면 회사 PR 효과도 있을 것이다.

둘째, 교육을 확대하려고 한다. 그동안은 구글링해서 파비블로그 글 보고 알아서 파비클래스 찾아오라는 식으로 홍보비 0원을 쓰는 버려진 사업 라인으로 취급했었는데, 이미 시장에 진입해서 오염된 사람들은 의지박약이면 포기하더라도 아직 자라나는 파릇파릇한 새싹들에게라도 제대로 된 교육을 제공해줘야지. 파비클래스 수준의 교육을 감당할 수 있는 인원이 모인 학교 동아리들에 직접 교육도 해 주고, 장학금 명목의 동아리 운영자금도 지급하려고 한다. 통계학, 수학, 물리학, 산업공학, 경제학 등등 연관 전공자들이 모인 학교 동아리 관계자들 중 관심있는 분들은 연락주시면 좋겠다.

교육 지원을 위한 면접 조건은 아래의 2개 문제에 대한 정답지다. 업계에 계신 분들이면 수학적인 요구도를 낮추겠지만, 학교에서 공부하는 학생들이니 Estimation Theory에 기반한 문제들로 갖고 왔다. (참고로 어느 외국 학교 석사 1학년 기말 시험 문제다.) 작성하신 정답지와 동아리 소개서는 [email protected]로 첨부파일과 함께 연락주시면 된다. 면접 당일에 비슷한 수준의 문제 몇 개와 질문을 통해서 실력있는 동아리인지 가늠해보겠다.

여담으로 첫번째 문제는 저 위의 tSNE 써보겠다던 의대 박사연구생이 응용했으면 도움이 되었을 모델인 것 같다. 관측값(y) 0/1은 Noise가 섞여있고, 실제 Regression 식에 써야할 결과값(y*)은 모르지만 최소한 Latent variable은 알고 있는데다, 각각의 Factor간 재미있는 상관관계까지 있는 모양이니까. 아마 이런 수리통계학 모델로 고민해보지 않고 NN, SVM, Tree, Logit 같은 모델들 10개쯤 뽑아서 돌려보고 제일 classification 잘 된 모델 골라서 발표하는 논문 쓰고 계시겠지만….