구글·네이버 AI 비서 출시, 점유율 경쟁에서 승리하려면 외형보단 내실다져야

네이버와 구글, 통합 검색 경험 제공 위한 AI 챗봇 출시 두 제품 모두 플랫폼 연계성 높지만, 혁신적인 기술력은 없어 사업 확장보다 이제는 기술에 투자해야 할 때

pabii research
아이러니하게 노동 집약적인 인공지능 개발 과정/사진=Pixabay

구글과 네이버가 같은 날 새로운 인공지능(AI) 검색 서비스를 선보였다. 구글의 ‘바드(Bard)’와 네이버의 ‘큐:(Cue:)’ 모두 한국 검색 시장에서의 점유율을 쟁탈하기 위해 심리스(seamless)한 통합 검색 경험 제공에 집중했다. 기존의 서비스들과 연결돼 복잡한 요구사항을 들어주고 후속 제안까지 연결하는 기능을 탑재한 것이 핵심이다.

하지만 시연 영상을 보거나 서비스를 직접 사용해 보면 알고리즘 성능이 기존 LLM들과 비교해서 크게 향상된 부분이 없다는 것을 알 수 있다. 지도, 문서, 쇼핑 등 기존 서비스들을 엮은 연계성 및 확장성에서 의의를 찾을 수 있지만 정작 사용자 경험에 가장 큰 영향을 미치는 알고리즘 성능은 혁신을 찾아볼 수 없다.

단계적으로 명령 수행하는 기능 새로운 것 아냐

그간 복잡한 모델 업데이트 없이 간편하게 생성형 AI의 성능을 높이기 위한 방법으로 사고사슬 프롬프팅(Chain-of-thought Prompting) 방식이 활용됐다. 예컨대 OpenAI의 ChatGPT에 요청 사항을 ‘단계적’으로 수행하라는 키워드를 포함하면 정확도가 훨씬 더 높아지는 식이다. 또한 답변에서 사고 과정을 기술하기 때문에 사용자가 GPT의 답변을 더욱 신뢰하게 만드는 효과도 생긴다.

이번에 출시된 바드와 큐:에는 사용자가 사고사슬 프롬프팅을 유도하는 단어를 명시하지 않아도 시스템에서 복잡한 질문을 분해하고 단계적 수행을 강요하는 변환 절차가 있어 복합적인 요구사항을 무리 없이 처리하는 것으로 알려졌다.

IT 관련 뉴스나 커뮤니티에서 AI 챗봇의 정확도에 대한 부정적인 피드백이 올라오는 이유는 LLM(거대언어모델)이 지나치게 복잡한 탓에 파인튜닝 과정에서 의도치 않은 영역별 성능 오차가 생기기 때문이다. 예를 들어 인기 신발 추천은 잘 해주지만 가격 조건은 맞춰주지 않거나, 여행 일정은 잘 짜주지만 거리 조건은 놓치는 경우 등은 사용자의 질문을 구매 행동으로 연결하는 의도에만 집중한 파인튜닝의 결과다. 한 가지 영역에서의 의도된 성능 향상은 의도치 않았던 영역에서 성능 저하를 일으킬 수 있다. 아직 정밀한 파인튜닝이 불가능한 만큼 시간이 지남에 따라 성능이 높아질 것이라는 기업의 주장에 동의하기 어렵다. 물론 방법이 아예 없는 것은 아니지만 첨단 기술인 AI의 화려한 면모와는 거리가 먼 노동 집약적인 인간 피드백형 학습 방식뿐이다.

인간 피드백 없이는 아무것도 못 해

간혹 바드와 큐:가 잘못된 답변을 도출하는 이유는 검색 포털의 데이터가 부족해서가 아니다. 사용자 질문에 대한 답변은 대부분 각 검색 포털에 차고 넘칠 것이다. 그런데도 정확한 답변을 주지 못하는 이유는 뭘까? AI는 진정한 의미에서의 학습 능력과 추론 능력 없이 인간지능에 종속돼 있기 때문이다. 사람과 구별하기 힘들 정도로 유창하고 똑똑하다고 알려진 GPT-4도 GPT-3.5보다 더 많은 파라미터(정확한 정보는 공개되지 않았다)로 학습했지만, 학습한 자료를 활용하기 위해서는 엄청난 수작업을 필요로 한다. 특히 적절한 답변에 대한 예시도 사람이 직접 타이핑을 통해 알려줬기 때문에 제시된 단어와 문장의 앞뒤를 AI가 확률적으로 기억한 뒤 그럴듯하게 대답할 수 있게 된 것이다.

ChatGPT에는 답변에 대한 평가와 좋은 답변의 예시를 남기는 기능이 있다. 바드와 큐:도 이를 피해 갈 수는 없다. 결국 구글과 네이버도 각 사의 프롬프트 뒤에서 수백, 수천 명의 직원들이 AI 모델을 학습시켜야만 사용자들의 꾸준한 재방문을 유도하고 락인 효과로 이윤을 남길 수 있다는 의미다. OpenAI의 사용자 감소세와 천문학적인 운영 비용을 교훈 삼아 생성형 AI 서비스 개발을 서둘렀다면, 이제는 잠시 멈춰서 비효율적인 성능 관리 문제를 먼저 직시해야 한다. 두 기업이 앞으로 시장에서 안정적인 수익 파이프라인을 구축하기 위해선 높은 성능의 알고리즘으로 사용자 요구를 만족시키고 구매 행동으로 자연스럽게 이어지는 전략과 LLM을 적은 비용으로 관리하는 방안을 하루빨리 모색해야 한다. 혁신적인 실험 기법과 알고리즘 개선을 통해 테크 기업답게 ‘기술’로 힘겨루기하는 날이 오기를 기대한다.

Similar Posts