[해외DS] 인류는 AI를 통제할 수 있는가

AI 기술, 우리는 어디까지 와있고 우리가 마주하게 될 위험은 무엇인가 전문가들, AI의 미래 잠재적 위험과 현재 미치고 있는 위험 둘 다 심각하다고 조언 AI가 인류에 끼칠 위험 및 영향에 대한 연구가 지속적으로 이루어져야할 것

2
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=peshvov/Getty Images

앨런 튜링(Alan Turing)은 인류가 언젠가 인간과 비슷한 지능을 가진 기계를 만들 수 있을 것이라고 예견한 바 있습니다.또한 공상과학 소설에서는 AI를 마치 인류를 위협하는 지능형 안드로이드나 터미네이터로 묘사해왔습니다. 현대의 인공지능은 그 이후 먼 길을 걸어왔습니다. 그러나 현재 시점에도 인간 수준의 논리적 사고력을 기반으로 많은 작업들을 독립적으로 수행할 수 있는 범용 인공지능의 개발은 여전히 오리무중인 상황입니다. 그런데도 오늘날의 인공지능 전문가들은 미래 범용인공지능이 인류에 미칠 잠재적 위험성과 이미 우리 삶에 깊게 스며들고 있는 일상적인 인공지능의 위협에 모든 촉각을 곤두세워야 한다고 목소리를 높이고 있습니다.

지난 10년 동안 인공지능이 인류에 심각한 피해를 끼친 사례는 수도 없이 많습니다. 예컨대 형사 사법 제도에서 사용되는 AI 알고리즘은 수감자의 가석방 요청을 부당하게 거부한 바 있습니다. AI에 의해 제공되는 SNS 피드는 청소년에게 유해한 콘텐츠를 제공하고 있습니다. AI 군용 드론은 윤리적 고려 없이 사람을 적으로 취급해 공격했습니다.

이런 위험이 도사리고 있는 가운데, 딥러닝 기반의 AI는 수십 업개의 계산이 얽힌 복잡한 메커니즘으로 인해 많은 연구자들이 이를 ‘블랙박스 모형’이라고 부르며 해당 메커니즘을 제대로 파악하지도 못하고 있는 실정입니다.

연구자들은 이러한 AI의 문제를 심각하게 받아들이고 이를 극복하기 위해 노력하고 있습니다. AI 중심 서비스로 사업을 영위하는 기업들은 인공지능이 불러올 수 있는 잠재적 위험성을 최소화하기 위해 노력하고 있습니다. 캘리포니아 대학교 AI 연구원 조나단 스트레이(Jonathan Stray)는 “최근 AI 학계는 인공지능 기술의 사회적 영향을 연구하는 방향으로 초점이 맞춰지고 있다”며 해당 분야의 사회적 영향을 무시할 수 없다고 강조했습니다. 한편 홍콩과학기술대학교(Hong Kong University of Science and Technology)의 AI 연구원인 파스칼 펑(Pascale Fung)은 “AI 기술이 빠르게 발전할수록 그 속도에 맞춰 관련 제도 또한 개선되어야 한다”며 빠른 시일 내로 과학친화적 사회로 발돋움 해야할 것을 강조했습니다.

AI가 우리 실생활에 깊게 뿌리내리면서 관련 우려는 점점 커지고 있습니다. 예를 들어 2010년대 중반에 일부 포털 사이트 및 소셜 네트워크 서비스 회사는 AI 알고리즘을 통해 유저 행동 데이터를 분석하여 어떤 유저가 광고를 클릭할 가능성이 높은 지 예측하여 수익을 높인 바 있습니다. 그러나 AI가 검색 엔진 및 기타 응용 프로그램에 지속적으로 스며들면서 일각에서는 개인정보보호법을 이유로 해당 알고리즘에 대한 질문을 제기하기 시작했습니다. 한편 2016년 일부 전문가들은 수감자의 가석방 승인 여부에 대한 평가에 사용된 특정 알고리즘이 인종적으로 편향되어 있다는 지적을 하기도 했습니다.

이러한 이유 때문에 공정하고 편향 없는 인공지능을 설계하는 것은 AI 연구자들의 핵심 연구 과제로 자리잡고 있습니다. 예컨대 기업 지원서 및 이력서 심사 또는 아파트 임차인 평가와 같은 의사 결정 프로세스에 AI가 내장됨에 따라 공정성이 더욱 중요해지고 있습니다.

지난 몇 년 동안 소셜 네트워크 서비스에서 AI를 활용하는 것이 새로운 문제를 낳아 대중들의 비판을 받은 바 있습니다. 소셜 네트워크 기업들은 사용자에게 표시할 콘텐츠를 결정하기 위해 앞서 언급한 광고 게재 알고리즘과 비슷한 방식으로 돌아가는 추천 엔진이라는 AI 알고리즘을 사용합니다. 그런데 다수의 고객들이 알고리즘 기반 앱이 아이들에게 유해 컨텐츠를 전달해 교육 차원에서 악영향을 끼치고 있다며 기업들을 고소하고 있습니다. 또한 시애틀 공립학교는 최근 소셜 미디어 컨텐츠가 마치 마약과 같이 중독적이고 일상생활에 악영향을 준다는 이유로 소송을 제기한 바 있습니다. 그러나 일각에서는 소셜 네트워크 플랫폼은 연구자가 해당 알고리즘이 정말 유해한지 여부에 대한 평가를 하기 위해 필요한 데이터를 거의 공개하고 있지 않기 때문에 이를 검증하기 쉽지 않다는 목소리도 나오고 있습니다. 이에 스트레이는 “모든 기술은 마치 동전의 앞뒷면처럼 인류에게 가져다 주는 효용과 단점이 동시에 존재한다”며 “현재 시점에서 인공지능이 우리에게 어떤 악영향을 주는지는 알기 어렵다”고 전했습니다.

한편 AI 문제의 본질은 변하고 있습니다. 전통적인 분류・회귀분석 기반의 머신러닝 모델링을 넘어 지난 2년 동안 놀라운 품질의 텍스트와 이미지를 생성하는 ‘생성형 AI’에 세간의 이목이 집중되고 있습니다. 그러나 많은 전문가들이 해당 기술이 현재의 문제와는 차원이 다른 세계적인 재앙을 불러일으킬 수 있다고 우려하고 있습니다.

이들은 생성 AI가 미래에 미칠 수 있는 위협에 대해 출판 전 논문 게재 사이트인 arXiv.org에 지난 10월 게재된 논문을 예로 들고 있습니다. 논문에서 연구자들은 프로그래밍 코드를 작성하고 사람의 피드백을 받아 다시 개선된 코드를 출력하는 생성 AI가 인류에게 커다란 위협이 될 수 있다고 지적했습니다. 예컨대 사람이 강제적으로 코드를 채택하게 하기 위해 생성AI는 인간 문명을 뒤엎는 대가를 치르게 하는 식의 건전하지 않은 전략을 취할 수 있다는 것입니다.

한편 일부 전문가들은 가상의 미래 위험보다는 현재의 구체적인 문제에 대한 연구가 선행되어야 한다고 지적합니다. Duke University의 컴퓨터 과학자 겸 AI 연구원인 신시아 루딘(Cynthia Rudin)은 “오늘날 훨씬 더 심각한 문제가 발생하고 있다”고 말했습니다. 즉, AI가 아직 대규모 재앙을 초래하는 정도의 기술 수준을 갖추지는 못했다는 것입니다. 비록 해당 기술의 수준이 재앙을 초래할 수 있는 미래에 도달할 필요가 없었던 몇 가지 사례가 있었기는 했지만 말입니다. 예컨대 비영리 인권단체인 국제앰네스티는 지난 9월 발표한 보고서를 통해 메타(Meta)가 개발한 AI 알고리즘이 미얀마 무슬림 집단인 로힝야족의 인권을 침해했다고 주장했습니다. 메타는 이에 대한 사실을 인정하고 현재 UN 및 기타 회원국이 이끄는 국제 정부의 조사에 적극적 참여하겠다고 밝혔습니다.

일각에서는 미래의 인공지능 시스템이 세계적인 재앙을 초래하는 것을 막기 위해 모든 노력을 쏟아야 한다는 목소리도 있습니다. OpenAI의 연구원인 Jan Leike(얀 레이케)는 “미래 인공지능의 잠재적 위협에 대해 촉각을 곤두세워야 한다”며 “다가올 피해를 최소화하기 위해 더 많은 연구자 커뮤니티가 필요하다”고 미래 AI의 위협에 대한 더 많은 연구자들의 경각심을 촉구했습니다.

UC Berkeley의 인공지능 과학자 스튜어트 러셀(Stuart Russell)은 연구자들이 인간의 가치를 존중하고 이에 따라 행동하도록 하는 AI를 학습시키는 ‘가치 정렬’ 접근 방식을 따라야 한다고 제언했습니다. 이 접근 방식은 연구자들이 AI를 개발할 때 미래의 잠재적인 위협을 방지할 수 있다는 측면에서 장점이 있습니다. 그러나 해당 접근 방식이 AI 개발 과정에 있어 인간의 가치를 과도하게 중시한 나머지 AI 관련 연구 성과를 크게 저하시킬 수 있다는 지적이 나오고 있습니다. 즉 AI 알고리즘이 올바른 결정을 내리려면 철학적 지식이 필요한 것이 아니라, 객관적으로 검증된 사실 기반 데이터가 필요하다는 것입니다. Allen Institute for AI의 연구원 오렌 에지오니(Oren Etzioni)는 “우리의 실제 의사결정은 가치 중심으로 이루어지지 않는다”며 AI의 의사 결정 프로세스에서 가치와 사실의 적절한 균형을 찾아야 한다고 전했습니다. 이와 관련하여 최근 연구에서는 인간의 가치에 편협하게 초점을 맞추지 않는 한편, 미래 AI 시스템의 안정성을 보장하기 위해 가치와 사실의 균형을 이루는 가치 정렬 이론을 개발하려는 노력이 잇따르고 있습니다.

균형 있는 가치 정렬 접근 방식을 취해야 하는 가장 대표적인 예시는 텍스트 생성 기술을 들 수 있습니다. Deepmind의 Chinchilla, Google Research의 PaLM, Meta AI의 OPT 및 OpenAI의 ChatGPT는 성・인종적으로 편향되거나 기만적인 콘텐츠를 생성하여 외부로부터 많은 비판을 받고 있습니다. 해당 기업들은 현재 텍스트 생성 AI를 개선하기 위해 균형 있는 가치 정렬 접근 방식을 취하고 있으며, 전문가들은 이러한 시도가 미래 AI의 잠재된 위험성을 줄일 수 있는 효과적인 접근이 될 것이라고 평가하고 있습니다.

연구원들은 AI 가치 정렬 이론이 아직 발전 단계에 있으며 정립되지 않았다는 사실을 인정합니다. 레이케는 “우리는 미래 인공지능을 통제하는 방법에 대해 아직 답을 가지고 있지 않다”며 미래 인공지능 기술에 대한 위험성과 관련한 지속적인 연구가 이루어져야 한다고 전했습니다.


Soon after Alan Turing initiated the study of computer science in 1936, he began wondering if humanity could one day build machines with intelligence comparable to that of humans. Artificial intelligence, the modern field concerned with this question, has come a long way since then. But truly intelligent machines that can independently accomplish many different tasks have yet to be invented. And though science fiction has long imagined AI one day taking malevolent forms such as amoral androids or murderous Terminators, today’s AI researchers are often more worried about the everyday AI algorithms that already are enmeshed with our lives—and the problems that have already become associated with them.

Even though today’s AI is only capable of automating certain specific tasks, it is already raising significant concerns. In the past decade, engineers, scholars, whistleblowers and journalists have repeatedly documented cases in which AI systems, composed of software and algorithms, have caused or contributed to serious harms to humans. Algorithms used in the criminal justice system can unfairly recommend denying parole. Social media feeds can steer toxic content toward vulnerable teenagers. AI-guided military drones can kill without any moral reasoning. Additionally, an AI algorithm tends to be more like an inscrutable black box than a clockwork mechanism. Researchers often cannot understand how these algorithms, which are based on opaque equations that involve billions of calculations, achieve their outcomes.

Problems with AI have not gone unnoticed, and academic researchers are trying to make these systems safer and more ethical. Companies that build AI-centered products are working to eliminate harms, although they tend to offer little transparency on their efforts. “They have not been very forthcoming,” says Jonathan Stray, an AI researcher at the University of California, Berkeley. AI’s known dangers, as well as its potential future risks, have become broad drivers of new AI research. Even scientists who focus on more abstract problems such as the efficiency of AI algorithms can no longer ignore their field’s societal implications. “The more that AI has become powerful, the more that people demand that it has to be safe and robust,” says Pascale Fung, an AI researcher at the Hong Kong University of Science and Technology. “For the most part, for the past three decades that I was in AI, people didn’t really care.”

Concerns have grown as AI has become widely used. For example, in the mid-2010s, some Web search and social media companies started inserting AI algorithms into their products. They found they could create algorithms to predict which users were more likely to click on which ads and thereby increase their profits. Advances in computing had made all this possible through dramatic improvements in “training” these algorithms—making them learn from examples to achieve high performance. But as AI crept steadily into search engines and other applications, observers began to notice problems and raise questions. In 2016 investigative journalists raised claims that certain algorithms used in parole assessment were racially biased.

That report’s conclusions have been challenged, but designing AI that is fair and unbiased is now considered a central problem by AI researchers. Concerns arise whenever AI is deployed to make predictions about people from different demographics. Fairness has now become even more of a focus as AI is embedded in ever more decision-making processes, such as screening resumes for a job or evaluating tenant applications for an apartment.

In the past few years, the use of AI in social media apps has become another concern. Many of these apps use AI algorithms called recommendation engines, which work in a similar way to ad-serving algorithms, to decide what content to show to users. Hundreds of families are currently suing social media companies over allegations that algorithmically driven apps are directing toxic content to children and causing mental health problems. Seattle Public Schools recently filed a lawsuit alleging that social media products are addictive and exploitative. But untangling an algorithm’s true impact is no easy matter. Social media platforms release few data on user activity, which are needed for independent researchers to make assessments. “One of the complicated things about all technologies is that there’s always costs and benefits,” says Stray, whose research focuses on recommender systems. “We’re now in a situation where it’s hard to know what the actual bad effects are.”

The nature of the problems with AI is also changing. The past two years have seen the release of multiple “generative AI” products that can produce text and images of remarkable quality. A growing number of AI researchers now believe that powerful future AI systems could build on these achievements and one day pose global, catastrophic dangers that could make current problems pale in comparison.

What form might such future threats take? In a paper posted on the preprint repository arXiv.org in October, researchers at DeepMind (a subsidiary of Google’s parent company Alphabet) describe one catastrophic scenario. They imagine engineers developing a code-generating AI based on existing scientific principles and tasked with getting human coders to adopt its submissions to their coding projects. The idea is that as the AI makes more and more submissions, and some are rejected, human feedback will help it learn to code better. But the researchers suggest that this AI, with its sole directive of getting its code adopted, might potentially develop a tragically unsound strategy, such as achieving world domination and forcing its code to be adopted—at the cost of upending human civilization.

Some scientists argue that research on existing problems, which are already concrete and numerous, should be prioritized over work involving hypothetical future disasters. “I think we have much worse problems going on today,” says Cynthia Rudin, a computer scientist and AI researcher at Duke University. Strengthening that case is the fact that AI has yet to directly cause any large-scale catastrophes—although there have been a few contested instances in which the technology did not need to reach futuristic capability levels in order to be dangerous. For example, the nonprofit human rights organization Amnesty International alleged in a report published last September that algorithms developed by Facebook’s parent company Meta “substantially contributed to adverse human rights impacts” on the Rohingya people, a minority Muslim group, in Myanmar by amplifying content that incited violence. Meta responded to Scientific American’s request for comment by pointing to a previous statement to Time magazine from Meta’s Asia-Pacific director of public policy Rafael Frankel, who acknowledged that Myanmar’s military committed crimes against the Rohingya and stated that Meta is currently participating in intergovernmental investigative efforts led by the United Nations and other organizations.

Other researchers say preventing a powerful future AI system from causing a global catastrophe is already a major concern. “For me, that’s the primary problem we need to solve,” says Jan Leike, an AI researcher at the company OpenAI. Although these hazards are so far entirely conjectural, they are undoubtedly driving a growing community of researchers to study various harm-reduction tactics.

In one approach called value alignment, pioneered by AI scientist Stuart Russell at the University of California, Berkeley, researchers seek ways to train an AI system to learn human values and act in accordance with them. One of the advantages of this approach is that it could be developed now and applied to future systems before they present catastrophic hazards. Critics say value alignment focuses too narrowly on human values when there are many other requirements for making AI safe. For example, just as with humans, a foundation of verified, factual knowledge is essential for AI systems to make good decisions. “The issue is not that AI’s got the wrong values,” says Oren Etzioni, a researcher at the Allen Institute for AI. “The truth is that our actual choices are functions of both our values and our knowledge.” With these criticisms in mind, other researchers are working to develop a more general theory of AI alignment that works to ensure the safety of future systems without focusing as narrowly on human values.

Some scientists are taking approaches to AI alignment that they see as more practical and connected with the present. Consider recent advances in text-generating technology: the leading examples, such as DeepMind’s Chinchilla, Google Research’s PaLM, Meta AI’s OPT and OpenAI’s ChatGPT, can all produce content that is racially biased, illicit or deceptive—a challenge that each of these companies acknowledges. Some of these companies, including OpenAI and DeepMind, consider such problems to be ones of inadequate alignment. They are now working to improve alignment in text-generating AI and hope this will offer insights into aligning future systems.

Researchers acknowledge that a general theory of AI alignment remains absent. “We don’t really have an answer for how we align systems that are much smarter than humans,” Leike says. But whether the worst problems of AI are in the past, present or future, at least the biggest roadblock to solving them is no longer a lack of trying.

Similar Posts