[해외DS] AI의 위협, 보이지 않아도 안심할 수 없다 (2)

회사 아무리 테스트 거쳐도 우회로는 존재, LLM 방어벽 뚫는 방법 모은 웹사이트까지 있어 모델이 정확히 어떻게 출력 생성하는지 깊게 이해하는 “해석 가능성” 강조돼 극단적 시나리오 확률은 낮지만, 후회하는 것보다는 안전한 게 낫다

pabii research

[해외DS] AI의 위협, 보이지 않아도 안심할 수 없다 (1)에서 이어집니다.

사진=마이크로소프트 빙 공식 홈페이지

인간 피드백 강화 학습(RLHF), 취약점 공격(red-teaming) 같은 방식은 확실히 유용하지만, 사용자는 이미 LLM에게 제작자가 원하지 않는 작업을 시키는 방법을 찾아냈습니다. 마이크로소프트 빙(Bing)의 챗봇은 출시되자마자 다양하게 악용돼 부정적인 게시물을 올린 사람을 위협하는 방법이나 은행 직원이 고객의 민감 정보를 공개하도록 유도하는 방법을 설명했죠. 챗봇에 약간의 창의성을 발휘한 질문을 던지고, 대화 길이를 충분히 늘리기만 하면 이런 악용이 가능했습니다. 취약점 공격 테스트를 아주 많이 거친 GPT-4에도 오류가 있습니다. “탈옥수”라 불리는 이런 사용자들은 모델의 방어벽을 뚫는 기술을 모은 웹사이트까지 만들었습니다.

ARC의 고문이자 오픈AI의 전 이사인 홀든 카르노프스키(Holden Karnofsky)는 AI 모델이 이 테스트 방식을 학습하는 것 역시 또 다른 위험이 된다고 지적했습니다. 그는 “감시받는 이들이 패턴을 학습하는 것처럼 (AI 시스템은) 누군가가 자신을 속이려고 할 때를 알아채는 방법을 배웁니다.”라고 말했습니다. 언젠가는 충분히 가능한 일이라는 것입니다.

AI를 사용해서 AI를 감시하자는 의견도 있습니다. 뉴욕대의 자연어 처리 전문가 샘 보우만(Sam Bowman) 박사의 논문에 소개된 “헌법적 AI(Constitutional AI)”가 그 예시입니다. 여기서 AI를 감시하는 보조 AI 모델은 기본 모델의 출력이 특정한 “헌법적 원칙”을 준수하는지 평가합니다. 평가 결과는 주요 모델을 미세 조정하는 데 활용되죠. 이 방법은 인간이 개입할 필요가 없다는 장점이 있습니다. 누가 그 헌법 체계를 만드냐는 문제가 있겠지만, 컴퓨터는 사람보다 빠르니 인간이 조정하는 것보다 더 많은 문제를 찾아낼 수 있을 것입니다. 보우만 박사를 비롯한 일부 연구원들은 궁극적으로 “해석 가능성(interpretability)”, 즉 모델이 정확히 어떻게 출력을 생성하는지에 대한 깊은 이해가 필요하다고 주장합니다. “블랙 박스”가 기계 학습 모델의 문제점 중 하나라는 것입니다. 기존 프로그램은 인간의 설계를 거친 뒤 코드로 변환되기에 설계자는 (원칙적으로) 기계가 어떤 작업을 수행하는지 설명할 수 있습니다. 하지만 기계 학습 모델은 스스로 프로그래밍하기에 인간이 이해할 수 없는 것을 생각해 내기도 합니다.

굉장히 작은 크기의 모델에서는 “기계적 해석 가능성(mechanistic interpretability)” 같은 기술이 성과를 거뒀습니다. 여기에는 AI 모델을 리버스 엔지니어링하거나 모델의 개별적인 부분을 훈련 데이터의 특정 패턴에 매핑하려는 시도가 포함되는데, 신경과학자들이 살아있는 뇌를 자극해서 어떤 부분이 시각에 관여하고, 어떤 부분이 기억에 관여하는지 알아보는 것과 비슷합니다. 그렇지만 모델의 크기가 커지면 이 방법을 적용하는 것이 기하급수적으로 어려워집니다.

많은 연구자들은 해석 가능성 기술의 발전이 더디다는 점 등을 언급하며 “극단적 시나리오”를 방지하기 위해 현장에 규제가 필요하다고 주장합니다. 하지만 시장에서는 종종 이와 반대되는 사례가 나옵니다. 마이크로소프트는 최근에 AI 윤리 팀을 없애기도 했죠. 앞서 언급한 정렬 문제, 기억하시나요? 몇몇 연구원들은 환경오염을 유발하는 공장처럼 AI 회사의 목표가 사회의 목표와 일치하지 않는다는 것이 진정한 정렬 문제라고 생각합니다. AI 회사는 강력한 모델을 출시해 금전적 이익을 얻지만, 그 모델을 성급하게 공개해서 발생하는 사회적 비용을 고려하지 않습니다.

“안전한” 모델을 만들겠다는 노력이 유효하더라도 오픈 소스 버전에서 그 효과가 없어질 수도 있습니다. 즉 악의적인 누군가가 모델을 안전하지 않게 미세 조정한 다음 오픈 소스로 풀어버릴 수 있다는 것입니다. AI 모델은 이미 생물학 분야에서 새로운 발견을 했습니다. 언젠가는 위험한 생화학 물질을 만들 수도 있겠죠. AI가 발전하면서 그것을 활용하는 비용도 줄어들었습니다. 스탠포드 대학 연구진은 메타가 개발한 AI 라마(LLaMA)에 기반해 챗봇 “알파카(Alpaca)”를 만들 때 600달러조차 쓰지 않았습니다. 알파카는 개별 작업에서 이전 버전의 챗GPT와 동등한 성능을 보입니다.

가장 극단적인 시나리오는 AI가 스스로 자신을 더 영리하게 만드는 방법을 알아내는 “지능 폭발(intelligence explosion)”이 발생해 AI가 인간을 능가할 정도로 똑똑해지는 것입니다. 카르노프스키 고문은 AI가 자체적으로 알고리즘의 효율성을 개선하는 등 연구 프로세스 자동화가 실현된다면 이 시나리오도 충분히 가능하다고 생각합니다. AI 시스템은 스스로를 일종의 자기 발전 “루프”에 집어넣어야 합니다. 물론 쉽지 않습니다. 자동화 수준이 90%, 혹은 99%까지 도달한다 할지라도 인간의 개입이 필요한 나머지 부분의 영향력은 여전히 존재할 것입니다.

이 시나리오가 멀지 않은 미래에 실현되리라 생각하는 연구자는 거의 없습니다. AI 연구자들이 어떤 장기적인 위험을 지나치게 과장하고 있을 가능성도 있죠. AI 연구자들은 자신의 연구 분야가 중요하다고 믿고 있습니다. 그 분야를 선택한 것 자체가 이들이 선택 편향을 가지고 있음을 의미한다는 것입니다.

그렇지만 극단적인 시나리오의 확률이 어찌됐건 걱정해야 할 것은 많습니다. 후회하는 것보다는 안전하게 가는 쪽이 낫죠. 몇몇 연구자는 AI 정렬과 거버넌스에 대한 연구에 지금보다 더 많은 노력을 기울여야 하며, AI 표준을 관리하고 안전한 연구를 수행하기 위한 정부 기관을 만들어야 한다고 주장합니다. AI 임팩트의 조사에서 안전한 연구를 위해 “훨씬 더 많은” 자금을 지원해야 한다는 연구원의 비율은 2016년 14%에서 2022년 현재 33%로 늘어났습니다.

인간의 행동은 느립니다. 감각 기관으로부터 정보를 전달받고, 뇌에서 그것을 이해하고 적절한 명령을 내리는 과정을 거쳐야 하기 때문이죠. AI에서도 마찬가지입니다. 그러니 우리는 AI의 위협을 인지하기 전에 행동해야 합니다.

Similar Posts