ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과

Keith Lee 2023-02-16 10:562024-04-14 2024-04-14 23:10

7

pabii research

지난해 11월 말에 ChatGPT가 출시되고 2개월만에 사용자가 1억명을 넘었다는 보도가 있었다.

이제 만 2개월이 좀 더 지난 시점인데, 수익화를 위해서 개발사인 OpenAI가 서두르는 것을 보면서,

게임 이상으로 현실 서비스를 뜯어 고칠 수 있을까는 의문을 던져봤다.

한 언론사 기자 지원을 했던 학생이 ChatGPT에서 정보를 얻어 기사 샘플을 작성했다며 제출했단다.

솔직히 밝혀줘서 고맙다면서 글을 읽어본 경력직 기자 분은 ‘XX위키 베꼈네요?’라고 평가했다.

글 쓰기 업무를 가장 쉽게 대체할 수 있을 것이라고 생각했는데, 경력직 기자의 눈에 인터넷의 정보성 글을 베낀 것에 불과하다는 평이 나온 것이다.

ChatGPT, 알고리즘 구조 바꾼다로 AI혁명 일어나는 것 아냐

실제로 ChatGPT가 할 수 있는 일이 딱 그 정도에 불과하다.

질문한 내용에 있는 키워드를 바탕으로 정보 검색을 한 후, 적절한 정보를 찾아내서 정리하는 것이다.

이 때 활용하는 정보가 얼마나 정확한지는 이용자의 반응을 보면서 판단한다는 것이

ChatGPT가 기반하고 있는 ‘인간 피드백형 강화학습 (Reinforcement Learning with Human Feedback)’이다.

어떻게 비슷한 정보인지 찾아내는지는 Attention mechanism으로 불리는 딥러닝의 변형 모델을 이용한다.

기존의 통계학이 정규분포가 아닌 데이터에서 비선형 요인 분석(Non-linear Factor Analysis)에서 한계를 겪었는데,

이걸 신경망(Neural Network)라는 계산법을 이용해 비선형의 패턴을 찾아냈었다.

그러나 복잡한 패턴을 찾아내는데 여전히 한계점을 드려냈고, 계산이 뒤죽박죽되어 패턴 추출이 어려워지니,

데이터 간 연결 구조가 있을 것으로 짐작되는 구간들을 묶는 방식의 집합법(Clustering) 방식으로

Non-linear Factor Analysis를 대체하게 된다.

Clustering이 아마 머신러닝 기초 교과서에는 비지도학습(Unsupervised Learning)으로 배정되어 있을텐데,

결국 마지막으로 상품화 하기 전에는 인간이 들어가서 검증(Test)하는 절차를 거친다.

ChatGPT가 활용하고 있는 Attention mechanism은 바로 그 ‘인간이 들어가서 검증’하는 부분에서

‘인간 피드백’을 활용하고, 그 반응들을 모아 Non-linear Factor Analysis를 좀 더 효율적으로 하겠다는 것이다.

정리하면, 기존 딥러닝이 가진 문제를 해결하기 위해 계산 도구를 Neural Network에서 Clustering으로 바꿨고,

인간의 피드백을 활용해 Clustering에 필요한 검증 작업을 진행한다는 것이 요지다.

큰 틀에서 Non-linear Factor Analysis라는 통계적 계산을 좀 더 효율적으로 하기 위해 계산 도구를 변형한 것이다.

쉽게 예시를 들면, 도축한 소의 부위별로 고기를 잘라야 하는데,

예전에는 1개의 칼을 1명의 도축 전문가가 썼고,

딥러닝이라는 계산은 N개의 칼을 쓰는 시스템을 만들었는데 제대로 부위별로 안 나뉘니까,

이번엔 칼 모양을 좀 바꿔봤다는 것이다.

ChatGPT가 의존하고 있는 계산법이 ‘채팅’이라는 구조를 이용해 인간의 피드백을 활용하고 있는데,

채팅이 아닌 다른 방식으로라도 인간의 피드백을 활용할 수 있는 곳에는 유용하게 쓰일 수 있을 것이다.

반면, 인간 피드백 없이 복잡한 패턴을 찾아내야 한다면 여전히 딥러닝이 최적 계산법이다.

아니 그 전에, 그 데이터가 정규분포 성질을 갖고 있다면 굳이 딥러닝처럼 계산 비용이 많이 들어가는 접근법 대신,

학부 수준의 간단한 Factor Analysis로도 충분하다.

한 마리 소를 도축하겠다고 초 대형 공장을 지을 필요가 없고,

소의 고기 부위가 쉽게 잘 분리된다고 해도 굳이 공장에 자동화 시스템을 붙일 필요가 없다.

하루 수천 마리의 소를 도축해야 하고, 고기 부위가 잘 분리 되지 않는 경우에 이런 시스템이 의미가 있는 것이다.

적어도 국내 대부분의 회사들이 ‘빅데이터 속에서 숨겨진 정보를 찾아낸다’는 주장을 할 때,

대부분은 학부 수준의 간단한 Factor Analysis로도 충분하다.

오히려 Factor Analysis 이외의 다른 데이터 전처리가 더 큰 문제가 되겠지.

출처=ChatGPT

출처=ChatGPT

ChatGPT의 한계 – Garbage in, garbage out

돌아와서, ChatGPT가 사용자들을 끌어들이고 나니,

한국의 각종 커뮤니티들에 ChatGPT의 성능이 좋지 않다는 글들이 올라온다.

가수 스티븐 유, 싸이에 대한 질문을 던졌더니 실제와는 다른 정보가 나왔다는 것이다.

예를 들어, 가수 싸이의 경우는 ‘강남스타일’로 세계적인 명성을 얻은 이후에 다시 공익요원으로 군복무를 마쳤다는 답변이 나왔다.

현실을 재입대로 정상 군복무를 마친 후에 ‘강남스타일’로 세계적인 명성을 얻었다.

한국 국적을 버린 가수 스티븐 유의 경우에는 2006년에 한국 국적을 취득했고, 2014년부터는 한국에서 활동하고 있다는 오류 섞인 답변을 내놨다.

아마 출처였던 인터넷의 어느 정보가 저런 내용을 담고 있었고,

Attention mechanism이 스티븐 유, 유승준 등의 키워드와 연관 키워드라고 계산한 다음,

그 계산에 맞춰 문장을 재구성해 저렇게 답변을 내놨을 것이다.

아마 저런 답변이 인터넷 커뮤니티에 돌아다니고 있다는 제보를 받은 내부 관리팀에서는

해당 정보가 담긴 데이터 베이스(DB) 부분을 찾아 열심히 삭제하고 있을 것이다.

알고리즘을 고치기보다 오류 정보를 데이터 베이스에서 삭제하는 것이 훨씬 더 효율적인 시스템 운영법이기 때문이다.

AI라고 불리는 패턴 매칭 알고리즘에 대한 수학적, 통계학적 이해없이,

무조건 적으로 AI에 대한 광적인 믿음을 가진 분들은 딥러닝의 시대가 갔고, Attention이 전부인 시대가 왔다고들 주장한다.

아마 남의 논문을 베껴서 논문 출판 숫자를 늘려야 하는 수 많은 공학 연구 기관 관계자들도 그렇게 생각할지 모른다.

딥러닝으로 계산했다고 논문을 투고하는 것보다 Attention mechanism으로 계산했다고 투고하는게 더 출판될 확률이 높아졌기 때문이다.

그러나, 실제로 바뀐 것은 계산법 하나에 불과하다. 여전히 데이터 속에서 패턴을 찾아내되,

그 패턴이 단순한 패턴이 아니라 복잡한 패턴이어서, 데이터 별로 적절한 패턴을 찾아낼 계산법이 더 추가된 것에 지나지 않는다.

그렇게 각종 계산법이 무조건 99.999%, 아니 100%의 정답을 내놓는 것은 불가능하다.

저 위의 ChatGPT가 내놓은 답변이 대표적인 사례다.

얼마나 우수한 인재들이 투입됐고, 얼마나 큰 비용이 들어갔고, 얼마나 많은 마케팅을 했나?

그럼에도 불구하고 제공된 데이터를 연결해서 만들어낸 답변은, 결국 그 데이터의 정확도에 의존할 수 밖에 없다.

ChatGPT가 출시되고 난 다음에, 아마 검색 엔진에 유의미하게 쓰일 수 있을 것이라는 예측을 했었다.

한 페이지 10개의 선택지를 제공해주는 검색 알고리즘이 반드시 정답 10개를 제시해야 할 필요는 없으니까.

ChatGPT를 이용해 신문기사 과제를 작성했다는 그 학생 지원자 분이 하셨던 작업은,

굳이 따지자면 구글로 인터넷 검색을 해서 얻은 정보들을 직접 ‘짜집기’ 한 것이 아니라,

컴퓨터가 대신 ‘짜집기’ 해 준 것에 불과했다.

만약 그 정보들이 10년차 경력직 기자들이 쓴 내용이었다면 아마 그 과제로 합격할 수 있었을지도 모른다.

ChatGPT를 비롯한 각종 AI서비스들이 갈 길은 아이러니하게도 완벽한 알고리즘을 찾는 것이 아니라,

깔끔하게 잘 정리된 데이터 셋을 찾는 것일지도 모른다.

Keith Lee

CEO/Data Scientist @ Pabii Co., Ltd
co-Founder @ Swiss Institute of Artificial Intelligence
Head of GIAI R&D

데이터 사이언스 공부를 위한 교과서 추천

데이터 사이언스 공부를 위한 교과서 추천

Keith Lee 2018-09-14 00:002024-04-14 AI/DS교육

요즘 데이터 사이언스를 독학으로 하고 있는데, 혹은 수업에서 들은 것보다 더 깊은 내용으로 도전해보고 싶은데 좋은 교재를 추천해줄 수 없냐는 요청을 많이 받는다. 불행히도 그런 질문을 하시는 분들 대부분이 수학 & 통계학을 필자 스타일로 공부하신 적이 없는 분들이다. 당장 데이터 사이언스 책을 추천하기 전에 수학과 통계학을 추천해야할 판국인 셈이다. 그 중에는 데이터 사이언스 공부를 하는…

Blockchain 시리즈 – 블록체인의 거래 구조와 게임이론

Blockchain 시리즈 – 블록체인의 거래 구조와 게임이론

Keith Lee 2018-10-19 00:002024-04-14 AI/DS교육

블록체인이나 (비트)코인을 이야기하면, 보통은 트렌드 용어라서 들어봤는데, 사실 내용은 잘 모른다는 반응이 대부분이다. 그나마 관심있게 공부한다는 분에게서 “Decentralized”여서 중앙 통제 시스템이 없어도 잘 돌아가는 시스템, 궁극적으로는 서버를 모두 대체할 수 있는 시스템이라는 설명을 들을 수 있다. 그런데, 도대체 Decentralized가 왜 그렇게 중요한 포인트일까? 그럼 왜 인류의 역사 내내 중앙 통제없는 시스템이 제대로 성립될 수 없었고,…

[강의] 데이터 사이언스와 데이터 모델링 수강 관련

[강의] 데이터 사이언스와 데이터 모델링 수강 관련

Keith Lee 2019-05-22 08:592024-04-14 AI/DS교육

안녕하세요, 평소 블로그 글 보면서 많은 도움을 얻고 있어서 강의가 개설되기를 많이 기다렸습니다. 한 가지 궁금한 건 데이터 모델링 수업을 듣고 싶은데 이번에 “데이터 사이언스 메인 강좌”와 “데이터 모델링 수업”을 같이 신청해도 될지 문의드립니다. 데이터 모델링 수업을 바로 듣고 싶지만 수강 자격으로 말씀하신 논문 낼 수준은 아직 아니라서요. (중략) 전자공학 학사하고, 컴퓨터 공학 석사하면서 데이터…

딥러닝이 제일 열등한 모델인데 몰랐어? (2)

딥러닝이 제일 열등한 모델인데 몰랐어? (2)

Keith Lee 2020-09-11 00:002024-04-14 AI/DS교육

딥러닝이 제일 열등한 모델인데 몰랐어? 라는 글을 올리고 난 다음에 온갖 종류의 불평 불만을 다 받았는데, 주니어들이 시니어가 멍청하면 같이 일 하기 싫어한다는 사실이 너무너무 명백하게 드러나는 글들이 많아 아예 시리즈 글로 좀 만들어야겠다는 생각을 했다. 이런 정보가 널리 퍼져서 제대로 된 지식이 공유, 발전되는 시대가 하루라도 빨리 오면 좋겠다. 파비클래스 수업을 듣고 가신 어느…

대답하고 싶은 질문들

대답하고 싶은 질문들

Keith Lee 2018-10-05 00:002024-04-14 AI/DS교육

메일 섹션을 홈페이지 하단에 넣고, 회사 전화번호를 등록했을때만해도 공부하다가 뭔가 잘 모르는 내용이 있는 사람들, 벽에 부딪혔는데 스스로의 힘으로 극복하기 좀 어려운 분들의 연락을 기대했었다. 수업을 하는 것도 같은 이유니까. 나도 공부할 때 힘들었는데, 누군가 조금만 더 도와줬으면 쉽게 극복했을텐데, 이제 쬐끔 더 알게되었으니 도와주겠다는 마음에서 넣어놓은 개인 연락 포인트건만, 거의 대부분의 연락은 포인트 못…

“딥러닝” 강의 요청에 대한 단상

“딥러닝” 강의 요청에 대한 단상

Keith Lee 2018-10-17 09:002024-04-14 AI/DS교육

가까운 펀드 매니저들이랑 이야기를 해보면, 자기네가 제일 비웃는 사람들이 “종목을 추천해달라”고 하는 사람들이란다. 어떤 나라가 전망이 좋고, 어떤 산업이 전망이 좋고, 어떤 기술이 전망이 좋은지에 대한 고민을 해서 관련 테마에 맞춰 시장 점유율 같은 적절한 비율로 투자하는게 초단기 단타를 노리는 일부 헤지펀드를 제외하면 일반적인 투자자들의 관점이다. 그런데 “종목을 추천해달라”는건 어디서 주워들은 대박난다는 소문을 자기하고 좀…

로그아웃

파비리서치 로그아웃 하시겠습니까?

로그인

파비리서치의 많은 정보를 확인하기 위해서는 로그인이 필요합니다!

MDSA_Brochure_20240422_Cover

데이터 사이언스 경영학회(MDSA) 세미나 (5월 18일)