[해외DS] AI의 위협, 보이지 않아도 안심할 수 없다 (1)

양날의 검 LLM, 인터넷 피해 증폭시킬 수도 강력한 검색 엔진 될 수도 있어 AI 목표 추구하는 과정에서 바람직하지 않은 일 할 수 있다는 정렬 문제도 존재 오픈AI, GPT-4 출시 전 위험 줄이고자 RLHF, 취약점 공격 등 다양한 접근 방식 시도했다

6
pabii research
사진=AI 임팩트 공식 홈페이지

지난해 8월 미국의 연구 단체 AI 임팩트(AI Impacts)는 머신 러닝 연구원들에게 AI의 발전이 미래에 전반적으로 어떤 영향을 미칠지 물었습니다. 응답자들은 매우 좋음-양호함-중립적-나쁨-극도로 나쁨(인류 멸종 등) 5가지 시나리오에 확률을 매겼습니다. 조사 결과, 응답자의 절반 이상이 “극도로 나쁨” 시나리오에 5% 이상의 확률을 부여했습니다. AI 분야를 개척한 캐나다 토론토대 교수 제프리 힌튼(Geoffrey Hinton)은 AI가 인류를 말살할 수 있느냐는 질문에 “상상할 수 없는 일은 아니다”라고 대답하기도 했습니다.

나름대로 근거 있는 걱정입니다. 최근 업계의 최대 관심사는 스타트업 오픈AI가 개발한 챗봇 챗GPT(ChatGPT)와 같은 “대형 언어 모델(Large language models, LLM)”인데, LLM은 인터넷에서 얻은 엄청난 양의 데이터를 학습했기에 어떤 주제를 던져줘도 막힘없이 대답하고, 이미지를 생성하거나 곡을 쓰는 등 창작 활동을 할 수 있습니다. 사용 방법도 어렵지 않으니, 더 많은 사람들이 이러한 작업을 할 수 있게 됐습니다. 하지만 이 프로그램을 활용하는 사람들이 모두 선하지는 않습니다.

LLM은 오늘날 인터넷에서 횡행하는 일상적인 피해를 증폭시킬 수 있습니다. 누군가의 문체까지 모방할 수 있는 텍스트 생성 프로그램은 잘못된 정보를 퍼뜨리거나, 사람들을 속여 금전적인 피해를 입히거나, 악성 링크가 포함된 이메일을 보내 회사의 컴퓨터에 바이러스를 감염시킬 수 있습니다. 학교에서 부정행위를 하는 데 이용되기도 했죠.

물론 챗봇은 인간이 정보를 찾고 이해하는 데 도움을 주는, 좀더 강력한 검색 엔진이 될 수 있습니다. 양날의 검인 셈이죠. 지난 4월 파키스탄 법원은 보석 승인 심사에 GPT-4를 활용했는데, 해당 판결문에는 GPT-4와의 대화 기록까지 들어갔습니다. 4월 11일에는 카네기 멜론 대학 연구원들이 “이부프로펜 합성”과 같은 간단한 프롬프트만 넣으면 스스로 인터넷 검색을 해서 어떤 화학 물질로 어떻게 약물을 만들 수 있는지 알려주는 시스템을 개발했다며 아카이브(arXiv)에 프리프린트를 발표했습니다. 그렇지만 이 두 사례 모두 좋다고만 평가할 수는 없습니다. 챗봇으로 보석 심사를 하는 게 정말로 공정하다고 생각하십니까? 마약 같은 금지된 약물을 만드는 방법이 널리 퍼질 가능성은 없을까요?

일부 연구자들은 훨씬 더 큰 걱정을 하고 있기도 합니다. 바로 “정렬 문제(alignment problems)”인데요, AI가 사용자가 설정한 목표를 추구하는 과정에서 바람직하지 않은 해로운 일을 할 수 있다는 것입니다. 이와 관련된 가장 유명한 사례는 2003년 철학자 닉 보스트롬(Nick Bostrom)이 소개한 “종이 클립 최대 생산(paperclip maximiser)” 사고 실험입니다. AI는 가능한 한 많은 종이 클립을 만들어 내라는 지시를 받습니다. 그렇지만 AI에게는 얼마나 많이 생산해야 가능한 한 많은 종이 클립을 생산하는 것이 되는지에 대한 개념이 없기에, 정말 가능한 한 많은 조치를 동원해서 지구를 다 덮어버릴 만큼 많은 종이 클립을 만들어내고 결국 인류는 멸망한다는 것입니다. 소설 같아 보이시나요? 앞서 언급한 AI 임팩트의 조사에서는 꽤 많은 연구원들이 AI의 미래가 걱정된다는 응답을 했습니다.

그렇다면 우리는 뭘 해야 할까요? 우선 친숙한 것부터 해결해야 합니다. 오픈AI는 GPT-4를 출시하기 전에 사고 혹은 오용 위험을 줄이고자 다양한 접근 방식을 시도했습니다. 그 중 하나가 바로 “인간 피드백 강화 학습(reinforcement learning from human feedback, RLHF)”입니다. RLHF는 프롬프트에 대한 모델의 응답이 적절한지를 인간이 직접 보고 피드백을 하면 그 피드백에 기반해 모델을 업데이트하는 방식인데, 그 목표는 향후 유사한 메시지가 표시될 때 모델이 유해한 응답을 할 가능성을 줄이는 것입니다. 그렇지만 피드백에 참여한 인간들이 무엇이 “적절한지” 합의를 보는 데 종종 실패한다는 단점이 있습니다. 한 연구원은 RLHF가 챗GPT의 성능을 크게 향상시켰기에 AI 열풍을 부채질했다고 설명했습니다. 인간의 참여가 그런 결과를 불러왔다니, 아이러니한 부분입니다.

“취약점 공격(레드 티밍, red-teaming)”이라는 접근 방식도 있습니다. 군사 훈련에서 따온 방식인데, 아군(블루 팀)의 문제를 파악해서 분석하기 위해 가상의 적(레드 팀)을 활용하는 것입니다. 즉 레드 팀은 모델이 해서는 안 되는 일을 하도록 유도하면서 모델을 “공격”합니다. 오픈AI는 모델을 구현하면서 비영리 단체 얼라인먼트 리서치 센터(Alignment Research Center, ARC)와 협력해 이 테스트를 진행했습니다.

[해외DS] AI의 위협, 보이지 않아도 안심할 수 없다 (2)로 이어집니다.

Similar Posts