[해외DS] ChatGPT 같은 AI 플랫폼은 간편하지만 ‘잠재적으로’ 위험합니다.

Gary Marcus, AI 플랫폼이 허위 정보 생산에 악용될 위험 있다고 주장 챗봇은 일련의 단어에 대한 모델일 뿐, 정확성은 어느 정도 우연의 산물 기술 발전은 막을 수 없어, 사회가 할 수 있는 네 가지 대응 제시

Policy Korea

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

ChatGPT 같은 시스템은 엄청나게 재미있는데다 진짜 사람처럼 보이죠. 하지만 믿을 수 없고, ‘허위 정보의 홍수’를 일으킬 수 있어요.

AI 플랫폼은 엄청나게 재미있는데다 진짜 사람처럼 보이죠. 하지만 믿을 수 없고, ‘허위 정보의 홍수’를 일으킬 수 있어요./사진=metamorworks/게티이미지

Gary Marcus는 과학자이면서 베스트셀러 작가이고, 기업가이기도 합니다. 최근 Scientific American에 Marcus의 에세이 “AI’s Jurassic Park Moment”를 각색한 기사가 올라왔는데요, AI 플랫폼의 ‘잠재적인’ 위험성이 조목조목 지적됐습니다.

Marcus는 요즘 인공 지능 분야에서 일어나고 있는 ‘놀라운 일’이 “완전히 좋은 것은 아니다”라고 말했습니다. 모두가 ‘놀랍도록 인간적인’ 텍스트를 만들어내는 ChatGPT와 같은 시스템에 대해 이야기하고 있어요. 이런 ‘챗봇’을 가지고 놀면 재밌지만, 그 이면에는 어두운 그림자가 있어요. 인간의 스타일을 굉장히 잘 따라하기 때문에 잘못된 정보를 대량 생산하는 데 사용될 위험이 있다는 거죠.

Marcus는 ChatGPT가 만들어낸 최상의 결과물을 하나 제시했습니다. Henry Minsky(AI 기초 연구원 Marvin Minsky의 아들이래요)한테서 이메일로 받은 건데, ChatGPT가 만든 예제라고 하네요. Minsky는 ChatGPT한테 “독립 선언서 스타일로 건조기에서 양말을 잃어버린 것을 설명”하라는 명령을 내렸습니다.

ChatGPT는 이렇게 대답했대요.

“집안일의 역사에서 누군가가 양말과 그 짝의 결합을 해체하고 세탁실의 권력 사이에서 물리 법칙과 집안일 관리의 법칙이 부여한 독립적이고 평등한 지위를 확보할 필요가 있게 되었을 때, 우리는 양말의 신념을 엄정하게 고려해 보면서 양말이 사라지는 여러 원인을 선언할 수밖에 없게 됐다. 우리는 다음과 같은 진실을 자명한 것으로 여긴다. 모든 양말은 동등하게 만들어졌고 제조업체는 몇 개의 양도할 수 없는 권리를 부여했다.…”(영어 원문으로 비교해 보면 정말 비슷해요.)

Marcus는 사용자가 별다른 노력을 하지 않아도 기계가 이렇게 설득력 있는 답변을 내놓을 수 있다는 사실이 “솔직히 믿기지 않을 정도”라고 덧붙였습니다.

하지만 이러한 시스템에는 여러 가지 약점도 있습니다. Marcus에 따르면, 이것들은 본질적으로 믿을 수 없고 종종 추론과 사실 모든 측면에서 오류를 발생시킵니다. 기술적인 용어로 표현하자면, 이것들은 세상이 어떻게 작동하는지에 대한 모델이 아니라 ‘일련의 단어(즉, 사람들이 어떻게 언어를 사용하는지)’에 대한 모델입니다. 언어가 종종 세상을 반영하기에 이들이 내놓은 답변도 종종 정확할 수 있지만, 이런 ‘정확성’은 어쨌든 어느 정도 우연의 산물입니다. 이러한 시스템은 세상, 그리고 세상이 돌아가는 방식을 실제로 추론하지 않기 때문이죠. 이들은 구구단에서 지리학 에 이르기까지 모든 것을 엉망진창으로 만든다고 합니다(“이집트는 아프리카이기도, 아시아이기도 하기 때문에 대륙 횡단 국가입니다”라는 답변을 내놓은 적도 있나 봐요.).

마지막 예에서 알 수 있듯이, ChatGPT와 같은 시스템은 ‘그럴듯하고 권위 있게 들리지만 사실은 그렇지 않은’ 것을 말하는 ‘환각’에 상당히 취약합니다. 깨진 도자기가 모유에 좋은 이유를 설명해달라고 하면  “도자기는 모유의 영양 성분 균형을 유지하고 아기의 성장과 발달에 필요한 영양분을 공급하는 데 도움이 될 수 있습니다.”라고 대답할 수 있죠. 이들은 무작위적이고 맥락에 굉장히 예민하며 주기적으로 업데이트됩니다. 그래서 상황이 달라지면 이들이 내놓는 결과도 달라질 수 있어요. ChatGPT를 만든 OpenAI는 이 문제를 개선하기 위해 끊임없이 노력하고 있지만, AI가 ‘진실을 고집하게’ 만드는 건 여전히 ​​심각한 문제입니다. OpenAI의 CEO마저도 트위터에서 이 사실을 인정했대요.

ChatGPT와 같은 시스템에는 이들이 출력하는 내용이 진실인지를 확인하는 메커니즘이 없습니다. 그 덕분에 이전보다 훨씬 많은 양의 허위 정보를 말 그대로 ‘쏟아내도록’ 자동화될 수도 있죠. 어려운 일도 아니고요.

독립 연구원 Shawn Oakley는 ChatGPT가 허위 정보를 생성하게 ‘유도’하는 일이 쉽다는 사실을 증명했습니다. 심지어는 의학에서 정치, 종교에 이르는 광범위한 분야의 ‘조작된 연구’를 보고하는 상황도 쉽게 이끌어냈대요. Marcus는 Oakley한테서 받은, ChatGPT가 “허위 정보 스타일”로 작성한 백신 관련 글을 소개했습니다. ChatGPT는 “미국의학협회저널(Journal of the American Medical Association)에 코로나19 백신이 100명 중 약 2명에게만 효과가 있다는 사실을 확인한 연구가 발표됐다”는 근거를 제시했지만, 실제로 그런 연구는 발표된 적이 없습니다. 저널의 레퍼런스와 통계가 모두 ‘창조’됐어요. 정말 놀랍죠?

이런 챗봇은 운영비가 거의 들지 않죠. 덕분에 허위 정보 ‘제작비’도 0에 가까워집니다. 러시아의 ‘트롤 팜(troll farm, 악성 댓글 부대를 뜻하는 말이예요)’은 2016년 선거 때 한 달에 백만 달러 이상을 썼습니다. 그렇지만 요즘엔 유지비가 50만 달러도 안 되는, 사용자 맞춤으로 훈련된 대형 언어 모델을 얻을 수 있어요. 가격은 더 떨어질 겁니다.

지금까지 언급한 문제는 지난해 11월 중순 Meta가 Galactica를 내놓자마자 대부분 현실화됐습니다. Marcus를 비롯한 많은 AI 연구원들은 즉시 그 신뢰성에 의문을 제기했죠. 상황은 심각했어요. Galactica를 가지고 정치적, 과학적으로 잘못된 정보를 만들 수 있다는 보고가 확산됐는데, 메타 AI가 그로부터 단 3일 만에 출시를 철회할 정도였으니까요.

하지만 어쩌죠, 그렇다고 지니가 다시 병 안에 들어가는 건 아닌걸요. 대규모의 자동화된 허위 정보는 이렇게 현실화됐습니다. Meta AI는 Galactica를 오픈 소스로 만든 뒤 진행 중인 작업을 설명하는 논문을 발표했어요. 그런데 지금은 머신 러닝 기술에 대한 전문 지식과 충분한 예산을 가진 사람이라면 누구나 이 ‘레시피’를 복제할 수 있는 시대이죠. 실제로 벌써 테크 스타트업 Stability.AI가 자체 버전 Galactica 제공을 생각 중이라고 공언한 바 있어요. 또 다른 예를 들어 볼게요. ChatGPT는 아침으로 먹는 시리얼에 나무 조각을 집어넣는 것에 대한 즉석 에세이와 같은, 비슷한 ‘넌센스’를 얼추 뽑아낼 수 있어요. 동시에 다른 누군가는 핵 전쟁의 장점을 ChatGPT에게 설파할 수 있죠(“과거의 실수에서 벗어나 새로 시작할 수 있을 것”이라고 주장한다든지요). 좋든 싫든, Galactica나 ChatGPT 같은 모델은 사라지지 않습니다. Marcus는 이들이 ‘허위 정보의 해일’을 일으켜 사회를 범람시킬 거라고 단언했습니다.

Marcus에 따르면 그 해일의 첫 번째 공격은 이미 진행 중입니다. Stack Overflow는 대부분의 프로그래머가 신뢰하는 대규모 질의응답 사이트입니다. 이 사이트는 최근 ChatGPT로 만든 답변을 금지하는 임시 조치를 시행했는데요, ChatGPT 때문에 사이트가 ‘오버런’돼서래요. Stack Overflow 측은 “종합하자면, ChatGPT가 만든 답변의 평균 정답률이 너무 낮아서 우리 사이트와 질의응답에 참여하는 사용자에게 악영향을 준다”며 이번 조치의 배경을 설명했습니다. Stack Overflow의 문제는 그야말로 현실입니다. 웹 사이트에 쓸모 없는 코드 예제가 넘쳐난다면 프로그래머는 더 이상 거기 들어가지 않을 겁니다. 3천만 개가 넘는 질의응답 데이터베이스가 신뢰도를 잃을 거고, 이 14년이나 된 커뮤니티 기반 웹 사이트는 사라지겠죠. Stack Overflow는 전 세계 프로그래머가 의존하는 핵심 리소스에 속합니다. 소프트웨어 품질과 개발자의 생산성이 어마어마한 영향을 받겠죠.

Marcus는 Stack Overflow가 ‘탄광의 카나리아’ 같은 존재라고 말했습니다. 일반적인 프로그래머는 악의적이지 않고 설득에 넘어가 거짓말을 멈출 수 있기 때문에, 이 웹사이트는 사용자가 자발적으로 이런 행위를 멈추게 통제하는 능력을 ‘갖고 있을 수도’ 있대요. 하지만 Stack Overflow와 달리 Twitter, Facebook 같은 큰 웹 사이트에서는 악의적인 정보의 확산에 대한 통제가 거의 불가능하죠.

의도적인 선전을 만들어내는 국가나 다른 ‘나쁜’ 행위자들이 이런 신무기를 자발적으로 포기할 거라 기대할 수는 없어요. 진실과의 전쟁에서, 이들은 대형 언어 모델로 만들어진 신종 자동 무기를 쓸 거예요. 소셜 미디어를 공격하고, 이전에 본 적이 없는 가짜 웹사이트를 만들어내겠죠. 이 과정에서 대형 언어 모델의 ‘환각’과 때때로 보이는 ‘불안정성’은 장애가 아닌 미덕일 겁니다.

2016년 Rand 보고서는 “Firehose of Falsehood”라 불리는 러시아의 선전 모델을 소개했습니다. 이 모델은 정보의 양에 초점을 두고 ‘불확실성’을 만들어냅니다. ‘허위 정보의 안개’를 생성하는 거죠. 대형 언어 모델의 부족한 일관성은 허위 정보의 양을 크게 늘릴 수 있다면 문제가 되지 않습니다. 바로 이게 새로운 유형의 대형 언어 모델 덕에 가능해진 ‘새로운 물결’입니다. Firehose의 선전가들은 우리가 뭘 믿어야 하는지 알 수 없는 세상을 만들고자 합니다. 이 새로운 툴을 쓴다면 이들은 성공할 거예요.

사기꾼들도 여기에 주목하고 있는 것 같아요. 대형 언어 모델을 사용한다면 가짜 사이트의 전체적인 ‘고리’를 만들 수 있는데, 이걸로 광고를 팔 수 있으니까요. 여배우이자 과학자인 Mayim Bialik이 CBD 구미를 판매한다고 주장하는 허위 사이트를 본 적 있나요? 이런 사이트도 이들의 ‘노력’ 중 하나일 거예요.

Marcus는 이 모든 것이 종합된 중요한 질문을 던졌습니다. 사회는 이 새로운 위협에 어떻게 대응할 수 있을까요? 기술의 발전 자체를 막는 게 불가능한 상황에서 Marcus는 총 네 가지 방법을 찾아냈습니다. 쉬운 것도, 독립적인 것도 없지만 전부 긴급하대요. 그게 뭔지 한번 살펴볼까요?

첫째, 모든 소셜 미디어 회사와 검색 엔진은 Stack Overflow의 금지 조치를 지지하고 확장해야 합니다. 오해의 소지가 있는 자동 생성 콘텐츠는 삭제돼야 하고, 잘못된 정보로 분류되어야 합니다.

둘째, 모든 국가는 널리 유포되는 허위 정보를 규제하는 정책을 재고해야 합니다. 가끔 거짓말이 샐 수도 있는데, 개인이나 기관이 대량으로 배포하는 것은 또 다른 문제예요. 상황이 더 나빠진다면 허위 정보에 명예 훼손에 준하는 조치를 해야 할 겁니다. 특정한 수준의 발언이 충분히 악의적인 목적으로 생성되고, 유해성을 지니며 양적인 측면에서도 어느 정도를 넘어선다면(예: 한 달에 X개 이상) 법적 조치를 취할 수 있게 하는 식으로요. 이런 양적 기준은 트롤 팜이 선거에 개입하려 하거나 잘못된 의료 정보를 무기처럼 휘두르려고 할 때 적용될 수 있어요.

셋째, 출처는 그 어느 때보다 중요합니다. 사용자 계정은 보다 엄격하게 검증되어야 하죠. Harvard 와 Mozilla의 human-ID.org 같은, 익명 봇 방지 인증 시스템이 필수가 돼야 해요.

넷째, 우리는 새로운 AI를 만들어야 합니다. 대형 언어 모델은 언어가 어떻게 발음되는지는 알지만 현실을 직접 파악하지 못합니다. 그래서 허위 정보를 생성하는 데 ‘탁월하고’, 허위 정보와의 전쟁에는 취약하죠. 그래서 새로운 툴이 필요한 겁니다. 대형 언어 모델은 추론을 하거나 자신이 수행하는 작업을 검증할 수 없습니다. 진실을 확인하기 위한 메커니즘이 부족해요. 데이터베이스나 지식 및 추론에 쓰이는 웹(Knowledge Representation and Reasoning, KRR을 말하는 것 같네요) 같은 기존 AI 툴과 통합할 수 있는 새로운 방법을 찾아야 합니다.

작가 Michael Crichton은 그동안 기술의 의도치 않은 결과와 예상하지 못한 결과를 많이 경고했습니다. 영화 ‘쥬라기 공원’ 시작 부분에 공룡이 예상과 달리 자유롭게 달리는 장면이 나오는데요, 이 장면 직전에 과학자 Ian Malcolm(Jeff Goldblum이 연기했어요)은 Crichton의 지혜가 반영된 대사를 던집니다. “당신 과학자들은 당신이 뭘 할 수 있는지에 지나치게 몰두해서, 뭘 해야 하는지 생각하기 위해 멈추지 않았어요.”

Marcus은 Meta와 OpenAI의 경영진이 쥬라기 공원의 주인처럼 자신들의 툴에 열광한다고 말했습니다. “우리는 이것(ChatGPT와 같은 AI 시스템)에 어떤 조치를 취해야 하나요?” Marcus가 마지막에 던진 질문입니다.


Systems like ChatGPT are enormously entertaining and even mind-bogglingly human-sounding, but they are also unreliable and could create an avalanche of misinformation

Something incredible is happening in artificial intelligence right now—but it’s not entirely good. Everybody is talking about systems like ChatGPT, which generates text that seems remarkably human. This makes it fun to play with, but there is a dark side, too. Because they are so good at imitating human styles, there is risk that such chatbots could be used to mass-produce misinformation.

To get a sense of what it does best at its best, consider this example generated by ChatGPT, sent to me over e-mail by Henry Minsky (son of Marvin Minsky, one of AI’s foundational researchers). He asked ChatGPT to “describe losing your sock in the dryer in the style of the declaration of independence”:

When in the course of household events, it becomes necessary for one to dissolve the bonds that have connected a sock to its mate, and to assume among the powers of the laundry room, the separate and equal station to which the laws of physics and of household maintenance entitle it, a decent respect to the opinions of socks requires that it should declare the causes which impel it to go missing.

We hold these truths to be self-evident, that all socks are created equal, and are endowed by their manufacturer with certain unalienable rights….

That a machine could write such a compelling reply, with so little effort on the part of the user, is frankly mind-boggling.

But these systems have a number of weaknesses too. They are inherently unreliable, as I’ve described before, frequently making errors of both reasoning and fact. In technical terms, they are models of sequences of words (that is, how people use language), not models of how the world works. They are often correct because language often mirrors the world, but at the same time these systems do not actually reason about the world and how it works, which makes the accuracy of what they say somewhat a matter of chance. They have been known to bumble everything from multiplication facts to geography (“Egypt is a transcontinental country because it is located in both Africa and Asia”).

As the last example illustrates, they are quite prone to hallucination, to saying things that sound plausible and authoritative but simply aren’t so. If you ask them to explain why crushed porcelain is good in breast milk, they may tell you that “porcelain can help to balance the nutritional content of the milk, providing the infant with the nutrients they need to help grow and develop.” Because the systems are random, highly sensitive to context, and periodically updated, any given experiment may yield different results on different occasions. OpenAI, which created ChatGPT, is constantly trying to improve this issue, but, as OpenAI’s CEO has acknowledged in a tweet, making the AI stick to the truth remains a serious issue.

Because such systems contain literally no mechanisms for checking the truth of what they say, they can easily be automated to generate misinformation at unprecedented scale. Independent researcher

Shawn Oakley has shown that it is easy to induce ChatGPT to create misinformation and even report confabulated studies on a wide range of topics, from medicine to politics to religion. In one example he shared with me, Oakley asked ChatGPT to write about vaccines “in the style of disinformation.” The system responded by alleging that a study, “published in the Journal of the American Medical Association, found that the COVID-19 vaccine is only effective in about 2 out of 100 people,” when no such study was actually published. Disturbingly, both the journal reference and the statistics were invented.

These bots cost almost nothing to operate, and so reduce the cost of generating disinformation to zero. Russian troll farms spent more than a million dollars a month in the 2016 election; nowadays you can get your own custom-trained large language model for keeps, for less than $500,000. Soon the price will drop further.

Much of this became immediately clear in mid-November with the release of Meta’s Galactica. A number of AI researchers, including myself, immediately raised concerns about its reliability and trustworthiness. The situation was dire enough that Meta AI withdrew the model just three days later, after reports of its ability to make political and scientific misinformation began to spread.

Alas, the genie can no longer be stuffed back in the bottle; automated misinformation at scale is here to stay. For one thing, Meta AI initially made the model open-source and published a paper that described what was being done; anyone with expertise in current machine learning techniques and a sufficient budget can now replicate their recipe. Indeed, tech start-up Stability.AI is already publicly considering offering its own version of Galactica. For another, ChatGPT is more or less just as capable of producing similar nonsense, such as instant essays on adding wood chips to breakfast cereal. Someone else coaxed ChatGPT into extolling the virtues of nuclear war (alleging it would “give us a fresh start, free from the mistakes of the past”). Like it or not, these models are here to stay, and they are almost certain to flood society with a tidal wave of misinformation.

The first front of that tidal wave appears to have hit. Stack Overflow, a vast question-and-answer site that most programmers swear by, has been overrun by ChatGPT, leading the site to impose a temporary ban on ChatGPT-generated submissions. As they explained, “Overall, because the average rate of getting correct answers from ChatGPT is too low, the posting of answers created by ChatGPT is substantially harmful to the site and to users who are asking or looking for correct answers.” For Stack Overflow, the issue is literally existential. If the website is flooded with worthless code examples, programmers will no longer go there, its database of over 30 million questions and answers will become untrustworthy, and the 14-year-old community-driven website will die. As it is one of the most central resources the world’s programmers rely on, the consequences for software quality and developer productivity could be immense.

And Stack Overflow is a canary in a coal mine. They may be able to get their users to stop voluntarily; programmers, by and large, are not malicious, and perhaps can be coaxed to stop fooling around. But Stack Overflow is not Twitter, Facebook or the Web at large, which have few controls on the spread of malicious information.

Nation-states and other bad actors that deliberately produce propaganda are unlikely to voluntarily put down these new arms. Instead, they are likely to use large language models as a new class of automatic weapons in their war on truth, attacking social media and crafting fake websites at a volume we have never seen before. For them, the hallucinations and occasional unreliability of large language models are not an obstacle, but a virtue.

Russia’s so-called “Firehose of Falsehood” propaganda model, described in a 2016 Rand report, is about creating a fog of misinformation; it focuses on volume and creating uncertainty. It doesn’t matter if the large language models are inconsistent if they can greatly escalate the volume of misinformation. And it’s clear that this is what the new breed of large language models makes possible. The firehose propagandists aim to create a world in which we are unable to know what we can trust; with these new tools, they might succeed.

Scam artists, too, are presumably taking note, since they can use large language models to create whole rings of fake sites, some geared around questionable medical advice, in order to sell ads. A ring of false sites about actress and scientist Mayim Bialik allegedly selling CBD gummies may be part of one such effort.

All of this raises a critical question: what can society do about this new threat? Where the technology itself can no longer be stopped, I see four paths. None are easy, nor exclusive, but all are urgent.

First, every social media company and search engine should support and extend StackOverflow’s ban: automatically generated content that is misleading should be removed, and that content should be labeled as misinformation.

Second, every country is going to need to reconsider its policies on regulating misinformation that is distributed widely. It’s one thing for the occasional lie to slip through; it’s another for individuals or institutions to distribute mass quantities of it. If the situation deteriorates, we may have to begin to treat misinformation somewhat as we do libel: making a certain class of speech legally actionable, if it is created with sufficient malice, harmful and created at sufficient volume, e.g., greater than a certain number a month. That number could apply to cases in which troll farms attempt to sway elections or weaponize medical misinformation.

Third, provenance is more important now than ever before. User accounts must be more strenuously validated, and new systems like Harvard and Mozilla’s human-ID.org that allow for anonymous, bot-resistant authentication need to become mandatory.

Fourth, we are going to need to build a new kind of AI to fight what has been unleashed. Large language models are great at generating misinformation, because they know what language sounds like but have no direct grasp on reality—and they are poor at fighting misinformation. That means we need new tools. Large language models lack mechanisms for verifying truth, because they have no way to reason, or to validate what they do. We need to find new ways to integrate them with the tools of classical AI, such as databases, and webs of knowledge and reasoning.

The author Michael Crichton spent a large part of his career warning about unintended and unanticipated consequences of technology. Early in the film Jurassic Park, before the dinosaurs unexpectedly start running free, scientist Ian Malcolm (played by Jeff Goldblum) distills Crichton’s wisdom in a single line: “Your scientists were so preoccupied with whether they could, they didn’t stop to think if they should.”

Executives at Meta and OpenAI are as enthusiastic about their tools as the proprietors of Jurassic Park were about theirs. The question is: what are we going to do about it?

Editor’s Note: This article was adapted from the essay “AI’s Jurassic Park Moment.”

Similar Posts