AI/DS교육

데이터 사이언스란 빅데이터를 가공, 처리하는 과정에서 수학적, 통계학적 테크닉과 머신러닝 방법론, 그리고 도메인 지식을 결합하는 과정을 말합니다

SBS데이터저널리즘의 오해 – 최근 연구일수록 창의성이 줄어든다?

SBS데이터저널리즘의 오해 – 최근 연구일수록 창의성이 줄어든다?

제보를 하나 받았다. 최근들어 논문들의 창의성이 줄고 있다는 주장을 어느 한 논문을 근거로 지상파 방송국 중 하나인 SBS에서 내놨단다. 기존 연구를 인용한 정도가 높으면 창의성이 낮은 논문이라면서 1950년대부터 점점 창의성이 낮아지고 있다고 한다.   공학은, 특히 요즘 들어 AI논문이라고 하면서 Neural Network 모양만 살짝 바꾼 논문이 너무 많으니까 저 논리가 맞을 수도 있겠다는 생각이 조금…

ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과

ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과

지난해 11월 말에 ChatGPT가 출시되고 2개월만에 사용자가 1억명을 넘었다는 보도가 있었다. 이제 만 2개월이 좀 더 지난 시점인데, 수익화를 위해서 개발사인 OpenAI가 서두르는 것을 보면서, 게임 이상으로 현실 서비스를 뜯어 고칠 수 있을까는 의문을 던져봤다.   한 언론사 기자 지원을 했던 학생이 ChatGPT에서 정보를 얻어 기사 샘플을 작성했다며 제출했단다. 솔직히 밝혀줘서 고맙다면서 글을 읽어본 경력직…

ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

ChatGPT 시리즈 – ⑤’인간 피드백형 강화학습(RLwHF)’과 대형언어모델(LLM)의 미래

ChatGPT에 맞서 구글에서 Bard라는 LaMDA 기반의 대형언어모델(LLM) 모델을 내놨다. 이미 오래전부터 나왔던 이야기고, 모델 자체가 데이터 물량에 크게 의존하는만큼, 세계 최대 검색엔진을 갖고 있는 구글이 유사한 서비스를 못 내놓을 것이라는 생각은 하지 않았었다.   아직 준비 중이었을텐데, 워낙 ChatGPT가 여론의 관심을 받으니 출시일을 좀 앞당긴 것 같은데, 제임스 우주 웹 망원경(JWST)에 대한 설명 중에, 태양계…

ChatGPT 시리즈 – ④’인간 피드백형 강화학습(RLwHF)’과 GPT-3.5

ChatGPT 시리즈 – ④’인간 피드백형 강화학습(RLwHF)’과 GPT-3.5

ChatGPT의 모델 자체는 기존의 강화학습 모델들과 큰 차이가 없다. ChatGPT 측에서 직접 공개한 홈페이지 상의 설명이나, 논문에서도 기존의 강화학습을 일부 변형해 보상(Reward)를 주는 방식을 인간의 피드백으로 대체했다는 점을 지적하고, 해당 부분의 효과를 설명하는 실험으로 가득찬 전형적인 공학 논문이다.   위의 2번 식에서 볼 수 있듯, 기존의 강화학습(Reinforcement Learning, RL)을 놓고, Supervised Fine-Tuning(SFT)라는 작은 모델로 보정하는…

ChatGPT 시리즈 – ③’인간 피드백형 강화학습(RLwHF)’의 한계

ChatGPT 시리즈 – ③’인간 피드백형 강화학습(RLwHF)’의 한계

8.RLHF로 할 수 있는 것과 할 수 없는 것 자, 이제 이 시리즈 글의 가장 본질적인 목적으로 돌아와보자. 위의 논리를 이해했다면 굳이 ‘실험’에 의존하지 않고도 어떤 데이터와 어떤 목적일 때 RLHF가 효과적일 수 있을지 가늠이 될테니, 논리부터 한번 정리해보자.   우선, 일반에 ‘강화학습’으로 알려진 계산법은, 고교 시절에 봤던 미분 최적화 + 수열의 대학 방식 계산인데,…

ChatGPT 시리즈 – ②’인간 피드백형 강화학습(RLwHF)’의 장점

ChatGPT 시리즈 – ②’인간 피드백형 강화학습(RLwHF)’의 장점

5.강화학습(Reinforcement Learning)의 수학적 배경 위에서는 우리가 수식을 알고 있다고 가정했다. 근데 현실적으로 우리가 수식을 알고 있는 경우는 과연 얼마나 될까? 대부분의 도전은 우리가 문제를 정의하고 나면 수학 도구가 다 있기 때문에 간단하게 풀어낼 수 있다. (단지 그 수학이 배우기가 쉽지 않을 뿐이지만, 그것도 계산기만 잘 만들면 가능하다.)   진정한 도전은 바로 그 ‘문제를 정의’하기가 어렵다는…

ChatGPT 시리즈 – ①강화학습(RL)과 ‘인간 피드백형 강화학습(RLwHF)’

ChatGPT 시리즈 – ①강화학습(RL)과 ‘인간 피드백형 강화학습(RLwHF)’

요즘 ChatGPT가 엄청나게 많은 일을 할 수 있다며 말들이 많다. 모델을 봤을 때는 지난 2017년에 알파고가 나왔던 시절처럼 몇 가지 할 수 있는 것들만 말이 나오고는 Hype이 끝날 것 같은데, 몇 개의 시리즈 글로 ChatGPT가 왜 대단한지, 그럼에도 불구하고 뭔가 엄청난 일을 할 수 있는건 아닌지를 지적해 볼까 한다. ChatGPT의 명성을 이용하기 위해 그럴듯하게 자기네…

L1, L2 정규화에 대한 직관적인 이해

L1, L2 정규화에 대한 직관적인 이해

질문: 분포의 형태에 따라 MLE를 계산하는 식이 제곱항 형태이면 L2 정규화를, 제곱항으로 도출되지 않을 경우 L1 정규화를 사용한다는 점 이해했습니다. (베이지안 관점에서도, 사전분포의 형태에 따라 자동으로 L1, L2 정규화 형태가 도출되는 점 확인했습니다) 제가 궁금한 점은, 그럼에도 불구하고 구글링을 해보면 왜 많은 페이지, 논문 등에서 L1, L2를 혼용하는지, 혹은 엘라스틱 넷 같이 L1과 L2 항을…

Andrew Ng이 틀린 사례 – 2.빅데이터는 대용량 데이터다

Andrew Ng이 틀린 사례 – 2.빅데이터는 대용량 데이터다

시리즈 글 1번 Andrew Ng이 틀린 사례 – 1.딥러닝이 우월하다? 에서 정리했던대로, 딥러닝이라는 계산법이 장점인 경우는 일부의 데이터 셋에 불과하다. 같은 프레임에 끼워넣은 이미지 인식, 같은 문법체계 위에 작동하는 자연어 처리, 같은 규칙으로 전략적 선택을 하는 바둑 같은 게임 같은 데이터가 아니면 딥러닝 계산법은 별로 장점이 없는데, 저 위의 그래프를 보면 Amount of data가 늘어나면…

딥러닝이 제일 열등한 모델인데 몰랐어? – 마무리

딥러닝이 제일 열등한 모델인데 몰랐어? – 마무리

딥러닝이 제일 열등한 모델인데 몰랐어? 가 공개된 후 받은 여러 메일 중 시장 인력들의 한계에 대한 불평에 대한 공감 이메일을 공유하는 중이다. 몇 분 더 불만 사항을 담은 메일을 보내주셨는데, 다들 회사 상황에 대한 설명이 담긴 탓에 외부 공개를 원하질 않으셔서 이번 시리즈는 짧게 정리해야할 것 같다. 마지막으로, 직접 경험이 담긴 내용은 없지만 인터넷 상에…

딥러닝이 제일 열등한 모델인데 몰랐어? (4)

딥러닝이 제일 열등한 모델인데 몰랐어? (4)

딥러닝이 제일 열등한 모델인데 몰랐어? 가 공개된 후 받은 여러 메일 중 시장 인력들의 한계에 대한 불평에 대한 공감 이메일을 공유하는 중이다. 이번 글은 공대 카르텔에 심하게 당하며 면접 열심히 보던 물리학과 대학원생이 물리학 전공하면 뭐 할 수 있냐는 식으로 저를 깔보는 듯한 질문 을 받았다는 이야기다. 분노가 절절하게 느껴지고, 똑똑한 물리학과 출신이 무시당해서 얼마나…

딥러닝이 제일 열등한 모델인데 몰랐어? (3)

딥러닝이 제일 열등한 모델인데 몰랐어? (3)

딥러닝이 제일 열등한 모델인데 몰랐어? 라는 글을 올리고 난 다음에 온갖 종류의 불평 불만을 다 받았는데, 주니어들이 시니어가 멍청하면 같이 일 하기 싫어한다는 사실이 너무너무 명백하게 드러나는 글들이 많아 아예 시리즈 글로 좀 만들고 있는 중이다. 한 줄 요약하면, Data Science 팀의 주니어들이 파이썬 + 코딩 만능주의에 사로잡힌 (수리통계학 지식 전무한) 시니어들을 어떤 눈으로 바라보고…

딥러닝이 제일 열등한 모델인데 몰랐어? (2)

딥러닝이 제일 열등한 모델인데 몰랐어? (2)

딥러닝이 제일 열등한 모델인데 몰랐어? 라는 글을 올리고 난 다음에 온갖 종류의 불평 불만을 다 받았는데, 주니어들이 시니어가 멍청하면 같이 일 하기 싫어한다는 사실이 너무너무 명백하게 드러나는 글들이 많아 아예 시리즈 글로 좀 만들어야겠다는 생각을 했다. 이런 정보가 널리 퍼져서 제대로 된 지식이 공유, 발전되는 시대가 하루라도 빨리 오면 좋겠다. 파비클래스 수업을 듣고 가신 어느…

딥러닝이 제일 열등한 모델인데 몰랐어?

딥러닝이 제일 열등한 모델인데 몰랐어?

공학도들, 특히 AI 마니악들을 만나면 공통적으로 느끼는 것들이 있다. 딥러닝이 제일 우월하다 는 (초대형) 착각이다. 왜 구글이 적용하고 있는 초특급 모델, 그래픽 카드를 수백개씩 써야하는 모델, 배우기가 어려운 모델, 모든 곳에 다 쓸 수 있는 모델 이 우월하다는게 착각이냐고? 하나씩 하나씩 지적해보자. 1. 구글이 적용하고 있는 초특급 모델? 구글이 적용하고 있는 모델이라고 하면 너무 광범위한데,…

데이터 사이언스 어떻게 실무에 쓰냐고? – 구글 검색 1위의 위엄

데이터 사이언스 어떻게 실무에 쓰냐고? – 구글 검색 1위의 위엄

(Source: 구글 검색 화면) 뮤직비디오 리뷰글을 쓰고 싶다는 블로거 분이 “구글 SEO 최적화가 중요한 이유“라는 글을 보고 연락을 주셨다. 그동안 네이버 블로그를 오랫동안 운영했는데, 네이버에서도 1등으로 노출된 적이 없고, 구글에서도 자기 글 한번 노출된 적이 없는데 파비캐시에 글 올리면 1등으로 노출되는거 맞냐고 물으시더라. 이미 “구글 SEO 최적화가 중요한 이유“에서 스크린 샷으로 보여드렸고, 그 다음 시리즈…

구글 SEO 최적화가 중요한 이유 (2)

구글 SEO 최적화가 중요한 이유 (2)

지난 글이 공개되고 다양한 종류의 질문/코멘트를 받았다. 어떻게 글을 대충 썼는데도 구글 SEO를 잡느냐? 너무 독점하는거 아니냐? 구글 1등을 기계적으로 먹기 시작하면 트래픽 어마어마하게 늘겠네 그 방법 알려지면 마케터들 줄줄이 직장 잃겠네 Eigen-centrality라는건 뭔가? 등등 일단 몇 가지 오해를 불식시키자면, 무조건 기계적으로 구글 검색 최상단 노출이 되는건 아니다. 단지 그렇게 될 확률이 굉장히 높고, 다른…

구글 SEO 최적화가 중요한 이유

구글 SEO 최적화가 중요한 이유

유저 행동의 시작은 어디일까? 평소에 들어가던 커뮤니티에서 어떤 정보를 보거나, 드라마를 보거나, 책을 읽거나 등등 여러가지 정보 유입이 있겠지만, 그 정보를 찾으려고 할 때 제일먼저 취하는 행동은 정보 검색이다. 한국인이 정보 검색을 하는 채널이 여러방식이 있겠지만, 검색엔진만 놓고볼때, 점유율은 아래와 같다 (Note: 2002년 3월 17일 ~ 2020년 4월 14일, Internettrend.com) 글 쓰는 시점 기준 지난…

전략 컨설팅의 실패와 머신러닝의 관계 (2)

전략 컨설팅의 실패와 머신러닝의 관계 (2)

지난 글 이후로 많은 의견을 받았는데, 답변차원에서 2번째 글타래를 이어가본다. 지난 글에서 이미 학문적 훈련을 받은 사람들과 컨설턴트 사이에 어마어마한 깊이의 격차가 있는 예시를 들었으니, 이번에는 실제 현업에서 비지니스 하는 사람들과 컨설턴트들의 차이를 살펴보자. 케이스 풀이법에서 슈퍼마켓 예시를 들었으니 같은 산업에서 스토리를 이어나가면 될 것 같다. 컨설팅 vs. 슈퍼마켓 지점장 사례 먼저, 당신이 대형슈퍼마켓 지점장이라고…

전략 컨설팅의 실패와 머신러닝의 관계

전략 컨설팅의 실패와 머신러닝의 관계

우리 회사에 전략 컨설팅 방식의 논리 구조화를 좋아하고, 그 방법으로 비지니스 의사결정을 안 하고 있는 상황을 잘못되었다고 지적하는 직원이 하나 있다. 그 분의 사고 방식이 왜 틀렸는지를 설명하다보니 이게 왜 선형 회귀에서 비선형 회귀 or 머신러닝으로 계산 알고리즘의 중심축이 이동하고 있는지와 맞닿아있는 것 같아 글을 한번 정리해본다. 전략 컨설팅에서 하는 “케이스 풀이법” 우선 전략 컨설팅에서…

인공지능의 실체를 파악한 실리콘 밸리

인공지능의 실체를 파악한 실리콘 밸리

파비Fun 서비스 출시 이후 업로드 되는 다양한 종류의 유머 짤을 보게 되는데, 그 중 우리 회사 사업 모델과 직접적으로 연결된 짤 하나를 공유해본다 (Source: 파비Fun의 어느 포스트) 사실 똑같은 유머 짤을 9gag.com이라는 영어권 커뮤니티에서 본 적이 있는데, 댓글 중 하나가 굉장히 인상적이었던 기억이 있다. (Source: 9gag.com) 위의 댓글을 번역하면 투자자에게 회사 IR을 할 때는 끝판왕…