SBS데이터저널리즘의 오해 – 최근 연구일수록 창의성이 줄어든다?

pabii research

제보를 하나 받았다.

최근들어 논문들의 창의성이 줄고 있다는 주장을 어느 한 논문을 근거로 지상파 방송국 중 하나인 SBS에서 내놨단다.

출처=트위터

기존 연구를 인용한 정도가 높으면 창의성이 낮은 논문이라면서 1950년대부터 점점 창의성이 낮아지고 있다고 한다.

 

공학은, 특히 요즘 들어 AI논문이라고 하면서 Neural Network 모양만 살짝 바꾼 논문이 너무 많으니까 저 논리가 맞을 수도 있겠다는 생각이 조금 들기는 하는데,

근본적으로 논문 생산 프로세스를 완전히 잘못 이해했기 때문에 나오는 주장이라고 보인다.

 

논문 생산 프로세스

대학원에서 고급 논문을 써 본 적이 없는 사람들이 보통 착각하는 내용들을

  • 많이 써보다 보면 좋은 논문이 나오는 것이 아닌가
  • 뭔가 천재들만 하늘에서 뚝딱 떨어진 아이디어로 논문을 내는 것 아닌가
  • 출판된 논문이라는 것들은 다 엄청난 권위를 갖고 있는 것이 아닌가

정도로 요약할 수 있을 것 같다.

 

실제 현실은 위의 착각과 매우 거리가 멀다.

우선, 아무리 좋은 아이디어가 있다고 해도 기존 논문을 기반으로 하지 않고 하늘에서 뚝 떨어지는 경우는 없다.

무슨 노벨상을 받은 학자들이 젊은 시절부터 천재적인 논문을 냈다고 해서, 그들이 남의 논문을 하나도 의지하지 않는 것이 아니다.

그리고, 연구자들이 자기 연구의 근간으로 삼을 수 있는 좋은 논문의 숫자는 굉장히 적다.

사실 관계를 다 확인하면 된다는 언론이 보는 눈과, 학계에서 가치가 있는 논문을 판단하는 눈 사이에는 넘을 수 없는 차원의 벽이 존재한다.

 

실제로 속칭 A저널로 불리는, 학계의 자기 분야에서 매우 좋은 논문들이 실리는 저널에 자기 논문이 나갈려면,

박사 1-2학년을 거치며 그쪽 학계에서 이른바 ‘연구’라고 불릴만한 주제들 중 아주 기초적인 내용들을 배우고,

연구에 쓸 방법론들을 배우고, 그 방법론들이 자기쪽 학계에서 어떤 방식으로 쓰이는지를 다 배우고 나야,

‘연구 주제’라는 걸 학계 관계자들의 용어로 설명해 낼 수 있다. 이게 최소한의 요구 조건이다.

 

보통 박사 2학년 때 다른 좋은 논문들을 ‘비판(Critic)’ 해보라는 과제가 나온다.

남의 논문을 신랄하게 비판할 수 있을만큼 현재 해당 주제 관련 연구에 대해 잘 알고 있어야 겨우 논문 쓸 자격을 준다.

 

보통은 ‘연구 주제’를 제대로 못 잡아서 지도 교수들에게 욕을 먹고,

잘 잡는다고 해도 연구를 풀어나가면서 다른 연구자들이 어디까지 어떻게 풀어놨는지를 이해해가며 내 지식을 쌓아올려야 하는데,

하늘 아래 새로운 지식도 없고, 내가 하나 더 지식을 추가하려면 남들이 쌓아올린 지식을 따라가야 하기 때문이다.

 

그렇게 겨우겨우 대석학들이 만든 지식을 따라가서 아주 조그만한 기여를 더 하고 나면,

그게 정말 기여인지, 그래서 그 학계 관계자들에게 도움이 되는지를 A저널들이 판단하는 괴로운 리뷰 절차를 거친다.

대부분은 논문을 거절 당하는데, 이건 우리가 한번쯤 들어봤을 유명한 연구자들도 크게 다르지 않다.

그렇게 거절 당하는 일 없이 쉽게 논문이 출판된다면 그 저널의 전문성을 한번 의심해 봐야 한다.

 

위에 잠깐 지적했듯이 몇몇 공학 저널들은 그저 남들이 x%의 근사치를 만들어 냈는데, 내 방법론은 X+0.01%로 근사치가 올라갔다는 이야기가 나오면 무조건 출판해주는 것 같은데,

그런 논문들을 제외하고 나머지 논문들은 과거 수십년간의 연구를 다 이해하고 그 결과물을 이해하지 않으면

논문이 거절 당하는 수준이 아니라 아예 무시당한다.

그 학계의 ‘문법’을 이해조차 못한 논문을 받아줘야 할 이유가 없기 때문이다.

거인의 어깨 위 – 창의성이 줄어든 것이 아니라 거인의 어깨가 더 높아진 것

그런 측면에서 저 위의 CD지수 자체를 비판하는 것은 아니다.

CD지수 계산 자체는 아마도 논문 중 보통 두번째 챕터에서 다루는 과거 논문(Reference)의 숫자들을 기반으로 계산되었을 것이다.

그 지수 계산 자체가 잘못된 것은 아니다.

 

다만, SBS라는 유명 언론사에서 ‘데이터 저널리즘’이라고 이름을 달아놨건만, 정작 해석 방법이 완전히 잘못됐다.

저 그래프는 박사생들이 졸업논문을 쓰려면 얼마나 많은 공부를 해야되는지, 그 난이도가 점점 높아지고 있다는 뜻이다.

즉, 거인의 어깨 위에 올라가고 싶은데, 그 거인의 어깨가 더 높아지고 있다는 것을 의미한다.

지금 이 글을 쓰고 있는 순간에도 그 거인은 계속 키가 커지고 있다.

 

예전 1970년대, 80년대에 경제학 박사 공부를 하신 분들은 코스웍 2년, 논문 2년, 마지막 1년을 직장 찾는데 썼다.

2010년대 들어 5년만에 박사 졸업을 하면서 명문대는 커녕 괜찮은 학교 교수 자리를, 논문 역량으로만 찾는 경우는 거의 기적이다.

(논문 역량 없이 부모님이 어느 기업을 운영하고 있어서, 부모님이 노벨상 수상자여서 명문대 교수직 잡는 경우는 논외로 하자.)

빨리 졸업하는 경우야 있겠지만, 거의 대부분은 학계에 남을 생각이 없는 박사생들이 세상과 적당히 타협한 논문을 던지고 잊고 산다.

논문 역량으로 미국 기준 중위권 학교 교수만 되고 싶어도 정말 엄청난 수준의 논문을 써야 한다.

그 논문을 쓰려면 경제학계에서 주요한 방법론적 도전 뿐만 아니라, 자기 연구 분야 근처의 최근 논문들을 정말 매우 잘 알아야 한다.

자기 논문을 봐 주는 동시대의 사람들과 같은 눈높이를 갖고 있어야 논문을 인정 받을테니까.

 

그렇게 엄청난 고생 끝에 논문을 내면 모든 사람에게 칭찬을 받는 엄청난 논문이 되나?

아까 위에 썼듯이 박사 2학년들에게 그런 논문들을 맹폭격해라는 과제를 내 준다.

그 모든 문을 뚫은 연구자들 입장에서 ‘코흘리개’로 보이는, 연구 분야에 아직 진입할 자격도 주어지지 않은 학생들에게

몸서리치는 비판을 받는 것을 각오해야 한다.

 

한 교수님이 출판하려고 열심히 노력하시던 논문을 박사 1학년 수업에 쓰신 적이 있다.

내가 논문을 받자마자 “R이 없어서 Period마다 완전 소비를 가정하면 결국 Saving이 없으니, 결론 만들어내려고 일부러 R 빼버린 것 아니냐”라고 손을 들고 질문을 했다.

교수님이 굉장히 불쾌한 표정으로 “You act like a critic. Thx but plz save it for sth else. I know I have to do a lot to this paper.” 이렇게 답변해주신 적이 있다.

그 분이 나중에 내 논문을 봐 주시며 1학년 때부터 Critic 역량이 있었으니 자기가 시간을 내서 들어줄 수준의 논문은 냈을 것이라고 생각한다고 말씀하셨다.

그런 질문을 할 수 있게 되기 위해서 그 시점에 나 역시 벌써 수백 편의 관련 논문을 읽고 이해한 상태였고,

조금만 엉뚱한 논문을 써도 박사 1학년 코흘리개에게 수업 시간에도 이런 공격을 당한다는 것을 받아들일만큼,

학계에서 논문에 대한 비판(Critic)은 마치 일상 같은 것이다.

 

일반적으로 그런 Critic을 하기 위해서는 어마어마하게 많은 논문을 읽고 연구 방법론을 익혀야 한다.

학계에서 ‘문법’에 해당하는 연구 방법론을 알아야 최소한 무시당하지 않을 수준의 논문을 쓸 수 있는데,

과거 논문을 바닥에 깔지 않고 어떻게 새로운 논문을 쓸 수 있단 말이지?

 

물론 학위를 대충 주고, 적당히 논문 형식만 갖췄으면 눈을 감아주는, 이른바 학위 장사하는 학교(Diploma mill)들이 매우 많다는 것은 잘 알고 있다.

그런 학교들로 가득찬 나라에서 논문이 나온 걸로 판단하는 거라면 2010년대는커녕 1950년대에도 창의적인 논문은 없지 않았을까?

출처=트위터

‘창의적’이라는 단어의 함정

하늘 아래 새로운 것이란 없다는 표현이 있다.

산업혁명을 이끈 증기기관도 그리스·로마 시대에 이미 증기를 이용해 터빈을 돌리는 기술이 나와 있었다.

그 전에는 물레방아라는 수력 기술이 있었고, 화산 근처의 온천에서 수력과 열 에너지를 결합한 증기기관의 원형이 발굴되기도 한다.

요컨대 우리가 알고 있는 지식은 모두 그 아래에 깔려있는 기초 지식들을 결합하면서 새로운 정보를 좀 더 추가하는 것이다.

 

SBS데이터저널리즘은 ‘가장 인기 있는 논문 중심으로 볼 수 밖에 없고, 결국 새로운 변주를 만들어내기 어려울 수 있다”는 표현도 쓴다.

연구자 입장이었던 사람 입장에서 반은 맞고 반은 틀린 문구다.

‘가장 인기 있는 논문’이라기 보다, 가장 좋은 몇 개의 저널, 속칭 A저널에 올라온 논문만 보게 된다.

이유는 SBS데이터저널리즘에서 밝힌대로 너무 많은 논문이 쏟아지고 있기 때문이다.

그리고 A저널들은 논문의 수준이 낮으면 제대로 걸러내는 시스템을 갖고 있다는 확신이 있기 때문이기도 하다.

 

나머지 반쪽에 해당하는 ‘새로운 변주를 만들어내기 어렵다’는 표현에는 모든 측면에서 공감하기 어렵다.

오히려 학계에서는 새로운 변주를 만들어내기를 원한다. 단, 논문의 수준이 기존 A저널 논문 수준으로 높아야 한다.

정확하게는 새로운 변주를 만들어내기 어려운 것이 아니라, 새로운 지식을 더 얹기가 어렵다.

이미 다른 천재들이 내 눈에 새로운 지식들을 다 연구해놨고, 그게 A저널에 못 올라간 상태로 돌아다니고 있는 경우는 너무도 많다.

“오 그걸 그렇게 풀어냈다고?”, “와, 데이터 그렇게 바꾸면 X, Y, Z 처리할 때도 쓸 수 있겠네” 같은 평가가 좋은 논문에 나온다는 이야기는,

A저널에서 받아줄 수 있는 수준으로 방법론을 끌어올린 상태에서 ‘새로운 변주’, ‘창의적인 접근’을 했다는 뜻이다.

아쉽게도 내가 들은 적은 없지만, 남의 논문을 보고 그런 표현을 쓴 적은 종종 있었다.

역시, 좋은 논문에 그렇게 적절한 칭찬을 할 수 있는 시야를 갖춰야 학계에서 대화 자리에 끼워준다.

 

또 하나, 박사 2년차 끝 무렵에 논문 쓸 주제가 없다는 불평을 하면, ‘딱 그 주제로 500편 정도 읽어보고 다시 이야기하자’는 핀잔을 듣는다.

경험상, 500편은 커녕 100편만 읽어봐도 내가 궁금한 주제들이 뽑혀 나오고, 300편을 읽기 전에 내가 궁금했던 주제들이 왜 연구가 안 됐는지, 연구될 가능성이 있는지 알게 된다.

그리고 정말 500편을 다 읽고나면 연구하고 싶은 주제를 제대로 알기 위해 다시 수천 편의 논문을 읽어야 한다는 것도 알게 된다.

물론, 그걸 다 읽어볼 시간이 없기 때문에 A저널에 올라온 매우 좋은 논문들을 기준으로,

빠르게 논문의 특징들만 짚고 넘어가는 기술을 이용해 나머지 논문들을 훑고 넘어간다.

말을 바꾸면, 남의 논문을 기반하지 않고 ‘창의적’이라는 것은 학계에 없다는 것을 의미한다.

 

‘데이터저널리즘’이라는 타이틀을 달고 데이터를 기반으로 판단을 내리겠다는 시도는 매우 좋다.

그러나, 데이터를 해석할 때 현실의 문제를 왜곡해서 이해하면 엉뚱한 결론이 나오는 일이 잦은만큼,

데이터로 모델을 만드는 사람들은 언제나 데이터를 다루는 통계학 도구가 도구일 뿐, 결과가 아니라는 것을 명심해야 한다.

 

일상에서 보는 서비스들은 남들이 봤다는 것들 따라가는, 이른바 ‘양떼 움직임(Herding behavior)’이 실패하지 않는 전략일 수 있으나,

학계에서는 다른 사람들이 많이 봤던 논문이기 때문에 좋은 논문이 아니라, A저널에 올라가야 좋은 논문이다.

즉, 퀄리티를 철저하게 관리하는 플랫폼 위에 올라오는, 소수의 전문가들에게 ‘인증’을 받을 수 있느냐가 좋은 논문의 가늠자가 된다.

그들이 혁신을 가로막는 ‘꼰대’ 관점에서 논문을 평가하기 시작하면, 참신하고 기발한 논문들이 좀 덜 유명한 저널로 옮겨가고,

1-2년도 지나기 전에 ‘A 저널은 너무 고루하다, 요즘은 B 저널에 더 좋은 논문이 올라온다’는 소문이 나 버린다.

 

논문이 많아져서, 특정 논문에 대한 인용이 많아져서 ‘창의성’이 발휘되지 않는다는 것은 정말 학계를 모르는 결론이라고 밖에 달리 할 말이 없다.

 

‘창의적’인 논문이 없는 것이라는 섣부른 결론을 내리기 전에

논문이라는 것이 어떤 방식으로 작성되는지 제대로 알고 있었는지 한번 되물어 보고 싶다.

적어도 A저널에 출판할 가능성이 있는 주제를 들고 피를 토해가며 학계 자기 분야의 연구자들에게 납득될 수 있는 수준의 논문을 써 봤던 사람이어야

레퍼런스(Reference) 숫자가 2010년대로 올 수록 더 많아진다는 것이 무슨 의미인지 제대로 이해할 것이다.

Similar Posts