한국 언론의 ‘빅데이터’ 기사 수준

3
pabii research

가까이 지내는 친구한테 갑자기 난데없이 빅데이터 분석하는 언론사는 왜 만들었냐는 질문을 받았다.

언젠가 키워놓고 난 다음에 밝히게 될 몇 가지 다른 사정들이 있기는 한데, 입 밖으로 나온 말은 ‘너무 속터져서’ 였다.

우리나라에 빅데이터라는 표현을 제대로 이해하고, 거기에 맞춰 ‘분석’이라는 걸 할 수 있는 인력이 과연 몇 명이나 될까?

 

밖에선 개발자들 중심으로 데이터가 엄청나게 많이 쌓이는 상황을 빅데이터라고 표현하고,

말 붙이기 좋아하는 사람들이 자기만의 깜냥으로 떠들어대고는 이름만 ‘데이터’ 달고 거기에 ‘빅’을 더 붙이고 있는 걸 다들 알 것이다.

내가 보는 빅데이터는 기존의 Time Series와 Panel data 결합구조에서 Multi-pattern이 등장하는 경우를 말한다.

위의 조건을 충족하지 않는 데이터는 기존 통계 모델로 다 계산이 되거나, 아니면 그냥 SQL 쿼리 때리는 잡일이기 때문이다.

아마 내가 내린 빅데이터의 정의를 내 의도대로 이해하려면 국내 기준으로는 최소한 박사 유학 준비하는 통계학 석사 정도여야 할 것 같다.

 

우연히 아래의 기사를 봤다. 국내 최대 경제지 중 한 곳에서 [빅데이터]라는 꺽쇠를 넣어 쓴 기사다. (포털 링크, 원문 링크)

 

저 기사에 빅데이터는 어디에 있나? 에프앤가이드에서 10개 기업 관련 보고서 긁은게 빅데이터인가?

딱히 저 언론사나 기자 분을 욕할 생각은 없다. 이게 한국의 비참한 현실이라는걸 오래 전부터 알고 있으니까.

N사에서 인공지능 인력이라고 채용하는 애가 인공지능이라는게 계산통계학이라는걸 모르는 수준인데도 뽑아야할만큼,

국내의 인재 풀이 심각하게 엉망이라는 걸 너무 많이봐서 이제 ‘수렴’한 상태이기 때문이다.

 

지난 박근혜 정권 내내 ‘헬조선’이라는 단어가 엄청 유행하다가 문재인 정권 들어와서 내 입장에선 살기가 더 각박해졌는데도

정작 인터넷 여론에서는 ‘헬조선’이라는 단어가 잘 안 보이더라. 아마도 좌파 정권의 댓글 부대들이 주로 썼던 선동 단어이기 때문이겠지.

이런 상식(?)적인 해석을 확인하기 위해 댓글 부대들을 이래저래 좀 추적해보면, 꼭 위의 표현이 아니더라도 IP가 중국, 베트남인 경우가 엄청 많다.

우리 회사에서 운영하는 서비스 중에 하나에도 몰리는 트래픽 IP가 중국 일대인 경우가 있었다.

위의 강의 페이지 중 하나를 보면 알겠지만, 우리회사에서 남몰래 조용히 운영하는 베타 서비스 중 하나에

어느 날 갑자기 중국과 동남아시아에서 엄청난 트래픽이 계속 몰려들어와서 작은 서버 하나가 터진 적이 있다.

나중에 알고보니 AI 어쩌고 시스템이라고 어딘가에 알려졌다는데, 정보를 받은 분이 해킹을 시도했던 것으로 보인다.

AI 어쩌고니까, 그거 코드만 베끼면 쉽게 쓸 수 있는거라고 착각했겠지ㅋㅋ

비슷한 사례로, 회사서버 관리자 ID를 내 이름으로 했을 줄 알았는지 이름 비슷한 단어들 몇 백개 조합을 시도해본 경우도 봤다.

 

솔직히 위의 추적(?)도 추적이라 생각하지 않고, 빅데이터 분석이냐고 물어보면 그냥 Log쌓아서 그래프로 표현한게 전부라고 말할 것이다.

아마 내가 댓글이 엄청 많이 달리는 뉴스 페이지를 갖고 있었으면 ‘헬조선’이라는 단어를 계속 쓰던 댓글 조작단(?)이

정말로 중국, 동남아에서 출발한 트래픽인지 확인할 수 있었겠지만, 안타깝게도 난 그런 서비스를 안 갖고 있다.

 

내부적으로 이런 건 가끔 추적한다. 딱히 추적할라고 추적한게 아니라, 강의 교재 만들려고 추적한거긴 한데,

딱 정해진 시간에만 주기적으로 댓글에 좋아요 + 대댓글이 엄청나게 달리는걸 보면서,

이런 Anomaly를 과연 뒷 배경 없는 평범한 무직자의 인터넷 열폭으로 봐야할지, 아니면 정말 뒷 돈이 움직인걸로 봐야할지 모르겠더라.

전형적인 Type I error와 Type II error의 문제겠지.

 

저 수업 이름이 AI in Digital Marketing인데, 처음 저 수업 이름만 보고는 국내 대학원 때려치우고 갈아탄 어느 공돌이 출신 MBA AI/BigData 학생 하나가

이렇게 시간만 때우는 류의 수업은 안 했으면 좋겠다고 그랬다가, 요즘은 잠잠해진 것 같다.

위의 슬라이드 2장만 봐도 국내 어지간한 대학 교육과는 수준이 확연히 다르다는 것에 공감들을 해 주시리라 믿는다.

‘Digital Marketing’이라는 제목보고는 내가 극혐하는 경영학과 3류 교육을 하는 줄 착각했겠지. 날 모르니 그랬을 것이다.

학생 분, 모르고 징징댄건 딱히 화 안 났으니까 급얌전 모드로 바뀔 필요는 없고, 열심히 잘 배워서 커리어도 업그레이드하고,

매번 하는 이야기대로, 남들도 좀 깨우쳐주시라. 특히, 꺽쇠만 빅데이터 붙은 기사 쓰시는 분들도 좀 깨우쳐주시면 좋겠다.

 

기사링크

위의 우리 언론사 기사 일부를 보면서 나와 비슷하게 느낄지 모르겠지만, 요즘 우리회사 기자 분들을 보면서 느끼는건,

굳이 MBA AI/BigData 이런 교육 안 해줘도, 그래프가 어떤 방식으로 도출되었는지만 알려주면 제대로 활용할 수 있는 ‘문과’들이 곳곳에 숨어있는 것 같다.

위의 네트워크 차트와 해석을 보면, 국제정치학의 현실주의 vs. 자유주의 개념을 제대로 이해하신 분이,

저 네트워크 차트의 계산 방식을 제대로 이해하고 난 다음에 적절히 활용해서 기사를 쓰신 걸 알 수 있다.

 

저 그래프는 국내 인터넷 뉴스, 커뮤니티, 댓글 등등을 다 모은 다음,

데이터 재처리를 통해서 키워드들 간의 연결 관계를 네트워크 형태로 묶어놨다.

키워드 묶음별로 하나의 생각의 틀을 전달하고 있다는 걸 이해하게되면,

그 다음은 저 그래플 뽑는 ‘이과’의 영역에서 해석하는 ‘문과’의 영역으로 넘어간다.

 

어차피 수학도, 통계학도, 어떻게 쓸 수 있을지 이해하는 사고과정을 거쳐야 현실에 적용되는걸 생각하면,

한국식으로 치면 ‘문·이과 통합교육’을 해야될 것 같다.

물론 현실은 저 위의 강의 하나만해도 발표 과제 내 준걸 엉망으로 제출한거보고 보너스 점수를 좀 줘서 졸업은 시켜줘야되나…고민해야 될 상황이니까…

 

키워드만 몇 개 넣고 기간만 설정하면 저런 그래프 뽑아낼 수 있는 시스템을 만들어놓고,

난 딴거 하고 싶으니까 기사에 활용하고 싶은 분들한테 B2B로 푼돈만 좀 받자고 언론사들 몇 군데를 찾아갔었는데,

‘헬조선’ 상황을 잘 아는 분들이면 이미 짐작하시겠지만 문전박대보다 더 비참한 대우를 받고 나왔다.

스티브 잡스도 한국에서 창업했으면 컴퓨터 수리점이나 용팔이 같은 짓이나 하고 살았을거란 어느 커뮤니티 댓글이 쓱 스쳐가더라.

 

결국 이것도 내가 사업화하고 ‘성공’해야, 한국 같은 2류 국가에서 관심을 갖고 쓸려고 하겠구나 싶더라.

아니, 아예 쓸려고 하는 사람이 과연 있을지 모르겠다.

요즘 회사에서 운영하는 언론사들이 그렇게 어이없는 이유로 출발한 ‘수직계열화’ 목적으로 만든 서비스들이다.

딱히 언론사를 키울 생각은 없었는데, 만든 걸 쓰일 구석이 보이는데도 못 쓰고 문전박대를 하길래,

그렇다고 신문 기사 쓰는게 그렇게 어려운 일도 아니고, 스티브 잡스도 용팔이짓 해야 먹고사는 나라 출신인데…

뭐 이런저런 생각을 하며 시작했다.

사실 저건 구글SEO용 키워드 추출하려고 만든거라, 기사 쓰는 뻘짓 좀 정리되면 구글이 독점적 지위를 가진 해외시장에 서비스를 해야 되겠지.

한국은 뭐…. SEO가 뭔지 이해하는 사람 1명 찾기 힘든 네X버 종속국이니까.

 

기왕에 시작한거, 키우고 있는 몇 개 언론사 중 policykorea.com은 아예 작정하고 전문 정책 분석 기관으로 키워서,

쓸데없이 길바닥에 돈 버리는 프로젝트들이나 발주하는 공무원들의 면피 짓에 칼날로 좀 만들어보고 싶다.

국내 대기업들이 만든 경제 연구소들보다 훨씬 더 수준 높은 ‘빅데이터 분석’이 들어간 자료도 좀 만들어내고.

근데, 그렇게 써 먹을 수 있는 인재를 SIAI로 키울 수 있을지는 모르겠다ㅋ

별로 안 어려워보이는 일들인데, 그거 하나 제대로 못하면서 연봉 적다고 불평하는 애들 진짜 많더라ㅋ

Similar Posts