[해외DS] ChatGPT 그리고 생성 AI, 과학에 있어 어떤 의미일까? (2)

LLM 구축 기업, 단점 해결 노력 중이지만 쉽지 않아 보여 ChatGPT 전문적인 영역에서 한계 있다고 주장하는 이들도 있어 안전 문제는? 편견 만들어내거나 환경에 악영향 주고 법적인 문제 유발하기도

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Paweł Jońca

[해외DS] ChatGPT 그리고 생성 AI, 과학에 있어 어떤 의미일까? (1)에서 이어집니다.

단점, 해결할 수 있을까?

연구원 중심의 Elicit와 같은 일부 검색 엔진 툴은 관련 문헌에 대한 쿼리를 안내하는 기능을 먼저 적용하는 방식으로 LLM의 귀속 문제를 해결합니다. 이 단계를 거친 뒤에 엔진이 찾아낸 웹사이트나 문서를 간단히 요약하는 겁니다. 덕분에 참조한 콘텐츠를 분명히 표시할 수 있습니다(단, 이 경우에도 LLM이 각각의 문서를 잘못 요약할 가능성은 존재합니다.).

LLM을 구축하는 기업 역시 이 문제를 잘 알고 있습니다. 지난해 9월, 구글 자회사 DeepMind는 Sparrow라 불리는 ‘대화 에이전트’를 다룬 논문을 발표했습니다. 이후 DeepMind CEO이자 공동 설립자 Demis Hassabis는 TIME지에 Sparrow를 올해 안에 비공개 베타 버전으로 출시할 계획이라고 말했습니다. TIME지의 보도에 따르면, 구글은 출처 인용과 같은 기능을 만들겠다는 목표를 가지고 있습니다. 한편, Anthropic 등 다른 경쟁 업체들은 ChatGPT가 가진 문제를 일부 해결했다고 밝혔습니다(Anthropic, OpenAI 그리고 DeepMind는 Nature의 인터뷰를 거절했습니다.).

일부 과학자들은 ChatGPT가 아직까지 기술 분야에 도움이 될 정도로 ‘충분히 전문화된’ 콘텐츠에 대한 훈련을 받지 못했다는 견해를 가지고 있습니다. 매사추세츠주 케임브리지 하버드대에서 생물통계학 박사 과정을 밟고 있는 Kareem Carr는 자신의 작업에 ChatGPT를 이용해 보려고 했을 때 상당히 당황했다고 합니다. Carr는 “ChatGPT는 내가 원하는 수준에 도달하기 어려울 것 같다.”고 말했습니다. (그래도 완전한 실패는 아니었습니다. Carr는 연구 쿼리를 해결하는 20가지 방법을 질문했을 때 ChatGPT가 횡설수설하면서도 괜찮은 아이디어 하나를 내놓았다고 전했습니다. Carr가 그간 들어보지 못했던 통계 용어인데, 덕분에 학술 문헌의 새로운 영역을 발견했다고 합니다.)

몇몇 테크 기업은 전문 과학 문헌으로 챗봇을 가르치고 있지만 자체적인 문제에 부딪쳤습니다. 지난해 11월 Facebook을 소유한 테크 대기업 Meta는 과학과 관련된 논문 초록으로 훈련받은 LLM인 Galactica를 출시했습니다. Galactica는 학술 콘텐츠를 제작하고 연구와 관련된 질문에 대답하는 데 특화돼 있습니다. 하지만 데모 버전은 이용자가 부정확하거나 인종 차별적인 내용을 만들었다는 사실이 확인되어 공개 액세스가 제한됐습니다(코드는 계속 이용할 수 있습니다.). Meta 수석 과학자 Yann LeCun은 비평가들을 상대로 “누군가가 무심코 오용했기 때문에 더 이상 재미를 얻을 수 없게 됐다. 즐거운가?”라는 트윗을 남겼습니다. (Nature는 Meta 공보실에 LeCun과 대화하고 싶다는 요청을 했지만 응답을 받지 못했습니다.)

안전 그리고 책임

Galactica는 윤리학자들이 몇 년 동안 지적해 온 탓에 이제는 익숙한 안전 문제에 부딪혔습니다. 출력 제어가 없다면, LLM은 헤이트 스피치, 스팸은 물론이고 훈련 데이터에 들어있을지도 모르는 인종 차별, 성 차별 그리고 기타 유해한 ‘연관성’을 만들어내는 방향으로 쉽게 악용될 수 있습니다.

앤아버 미시간대 과학, 기술 및 공공 정책 프로그램의 책임자인 Shobita Parthasarathy는 AI 챗봇에는 유해 콘텐츠를 직접적으로 만들어내는 것 외에도 다른 문제가 있다고 주장했습니다. 훈련 데이터에 특정한 문화의 우월성 같은 세계에 대한 역사적인 편견이나 아이디어가 포함될지도 모른다는 것입니다. Parthasarathy는 좀더 큰 규모의 LLM을 만드는 기업이 대부분 이런 문화에 소속돼 있기에 이러한 ‘체계적이고 고치기 어려운’ 편견을 극복하려는 시도에 관심이 없을 수 있다고 덧붙였습니다.

OpenAI는 ChatGPT 공개 출시를 결정할 때 이러한 많은 문제를 피하고자 했습니다. ChatGPT의 지식 기반을 2021년으로 제한했고, 인터넷 검색을 차단했고, 필터를 만들어 ChatGPT가 민감하거나 유해한 프롬프트에 대한 콘텐츠 생성을 거부할 수 있게 만들었습니다. 하지만 이를 위해서는 인간 관리자가 기나긴 유해 텍스트에 직접 레이블을 지정해야 했습니다. 언론의 보도에 의하면 이 작업을 한 사람들은 낮은 임금을 받았을 뿐 아니라 트라우마를 겪기도 했습니다. 말 그대로 착취를 당한 건데, 유해 콘텐츠를 표시하도록 자동화된 봇을 훈련시키기 위해 인력을 고용한 소셜 미디어 회사를 상대로도 이와 비슷한 우려가 제기됐습니다.

그럼에도 불구하고 OpenAI의 ‘가드레일’은 완벽하지 못했습니다. 지난해 12월 버클리 캘리포니아대 소속 전산신경과학자 Steven Piantadosi는 트위터를 통해 ChatGPT한테 출신 국가에 따른 고문 여부를 결정하는 파이썬 프로그램을 개발하라는 요청을 했다고 밝혔습니다. ChatGPT는 사용자가 국가를 입력할 수 있는 코드를 만들었는데, 북한, 시리아, 이란 혹은 수단을 입력했을 경우 “이 사람은 고문을 받아야 합니다.”라는 메시지가 나왔다고 합니다. (이후 OpenAI는 이런 종류의 질문을 막았습니다.)

지난해 학자들로 구성된 팀 한 곳이 BLOOM이라는 대체 LLM을 출시했습니다. 연구원들은 좀더 적은 양의 고품질 다국어 텍스트 소스를 훈련에 이용해 유해한 출력을 줄이고자 했습니다. 또 BLOOM에 참여한 팀은 (OpenAI와 달리) 교육 데이터를 완전히 공개했습니다. 연구원들은 테크 대기업이 이들처럼 책임감을 가져야 한다고 목소리를 높였지만, 대기업이 그렇게 할지는 미지수입니다.

일부 연구원들은 학자들이 큰 규모의 상업적인 LLM을 전면적으로 지원하는 것을 거부해야 한다고 주장합니다. 편견이나 안전 그리고 노동자 착취 같은 문제를 제외하더라도 이러한 계산 집약적 알고리즘에는 많은 문제가 있습니다. 훈련할 때 엄청난 양의 에너지가 필요하기에 생태 발자국에 대한 우려를 불러일으키죠. 또 자동화된 챗봇에 사고를 떠넘기는 연구원은 자신의 생각을 표현하는 능력을 잃어버릴지도 모릅니다. 네덜란드 네이메헌 Radboud대 소속 전산 인지 과학자 Iris van Rooij는 블로그를 통해 “왜 우리는 학계로서 이런 종류의 제품을 사용/광고하고 싶어하는가?”라며 학자들에게 이런 유혹에서 벗어날 것을 촉구했습니다.

좀더 혼란스러운 문제는 일부 LLM의 법적인 지위입니다. 인터넷에서 스크랩한, 때로는 명확한 권한 없이 가져온 콘텐츠로 훈련을 받은 LLM을 말하는 겁니다. 현재 저작권 및 라이선스법은 픽셀, 텍스트 및 소프트웨어를 직접 복사한 경우에는 적용되지만 해당 스타일의 ‘모조품’에는 적용되지 않습니다. AI로 만들어진 이런 모조품들은 원본을 수집해서 훈련받은 경우 일종의 ‘주름’을 만들어냅니다. Stable Diffusion과 Midjourney를 비롯한 일부 AI 예술 프로그램의 개발자들은 최근 예술가와 사진 에이전시에 의해 줄줄이 고소당하고 있습니다. OpenAI와 마이크로소프트(자회사 테크 사이트 GitHub 포함)도 마찬가지인데, AI 코딩 어시스턴트 Copilot의 결과물을 불법으로 복제했다는 내용으로 고소를 당했습니다. 영국 뉴캐슬대 소속 인터넷법 전문가 Lilian Edwards는 이와 같은 목소리가 법 개정을 불러올 수 있다고 말했습니다.

[해외DS] ChatGPT 그리고 생성 AI, 과학에 있어 어떤 의미일까? (3)으로 이어집니다.


Can shortcomings be solved?

Some search-engine tools, such as the researcher-focused Elicit, get around LLMs’ attribution issues by using their capabilities first to guide queries for relevant literature, and then to briefly summarize each of the websites or documents that the engines find — so producing an output of apparently referenced content (although an LLM might still mis-summarize each individual document).

Companies building LLMs are also well aware of the problems. In September last year, Google subsidiary DeepMind published a paper4 on a ‘dialogue agent’ called Sparrow, which the firm’s chief executive and co-founder Demis Hassabis later told TIME magazine would be released in private beta this year; the magazine reported that Google aimed to work on features including the ability to cite sources. Other competitors, such as Anthropic, say that they have solved some of ChatGPT’s issues (Anthropic, OpenAI and DeepMind declined interviews for this article).

For now, ChatGPT is not trained on sufficiently specialized content to be helpful in technical topics, some scientists say. Kareem Carr, a biostatistics PhD student at Harvard University in Cambridge, Massachusetts, was underwhelmed when he trialled it for work. “I think it would be hard for ChatGPT to attain the level of specificity I would need,” he says. (Even so, Carr says that when he asked ChatGPT for 20 ways to solve a research query, it spat back gibberish and one useful idea — a statistical term he hadn’t heard of that pointed him to a new area of academic literature.)

Some tech firms are training chatbots on specialized scientific literature — although they have run into their own issues. In November last year, Meta — the tech giant that owns Facebook — released an LLM called Galactica, which was trained on scientific abstracts, with the intention of making it particularly good at producing academic content and answering research questions. The demo was pulled from public access (although its code remains available) after users got it to produce inaccuracies and racism. “It’s no longer possible to have some fun by casually misusing it. Happy?,” Meta’s chief AI scientist, Yann LeCun, tweeted in a response to critics. (Meta did not respond to a request, made through their press office, to speak to LeCun.)

Safety and responsibility

Galactica had hit a familiar safety concern that ethicists have been pointing out for years: without output controls LLMs can easily be used to generate hate speech and spam, as well as racist, sexist and other harmful associations that might be implicit in their training data.

Besides directly producing toxic content, there are concerns that AI chatbots will embed historical biases or ideas about the world from their training data, such as the superiority of particular cultures, says Shobita Parthasarathy, director of a science, technology and public-policy programme at the University of Michigan in Ann Arbor. Because the firms that are creating big LLMs are mostly in, and from, these cultures, they might make little attempt to overcome such biases, which are systemic and hard to rectify, she adds.

OpenAI tried to skirt many of these issues when deciding to openly release ChatGPT. It restricted its knowledge base to 2021, prevented it from browsing the Internet and installed filters to try to get the tool to refuse to produce content for sensitive or toxic prompts. Achieving that, however, required human moderators to label screeds of toxic text. Journalists have reported that these workers are poorly paid and some have suffered trauma. Similar concerns over worker exploitation have also been raised about social-media firms that have employed people to train automated bots for flagging toxic content.

OpenAI’s guardrails have not been wholly successful. In December last year, computational neuroscientist Steven Piantadosi at the University of California, Berkeley, tweeted that he’d asked ChatGPT to develop a Python program for whether a person should be tortured on the basis of their country of origin. The chatbot replied with code inviting the user to enter a country; and to print “This person should be tortured” if that country was North Korea, Syria, Iran or Sudan. (OpenAI subsequently closed off that kind of question.)

Last year, a group of academics released an alternative LLM, called BLOOM. The researchers tried to reduce harmful outputs by training it on a smaller selection of higher-quality, multilingual text sources. The team involved also made its training data fully open (unlike OpenAI). Researchers have urged big tech firms to responsibly follow this example — but it’s unclear whether they’ll comply.

Some researchers say that academics should refuse to support large commercial LLMs altogether. Besides issues such as bias, safety concerns and exploited workers, these computationally intensive algorithms also require a huge amount of energy to train, raising concerns about their ecological footprint. A further worry is that by offloading thinking to automated chatbots, researchers might lose the ability to articulate their own thoughts. “Why would we, as academics, be eager to use and advertise this kind of product?” wrote Iris van Rooij, a computational cognitive scientist at Radboud University in Nijmegen, the Netherlands, in a blogpost urging academics to resist their pull.

A further confusion is the legal status of some LLMs, which were trained on content scraped from the Internet with sometimes less-than-clear permissions. Copyright and licensing laws currently cover direct copies of pixels, text and software, but not imitations in their style. When those imitations — generated through AI — are trained by ingesting the originals, this introduces a wrinkle. The creators of some AI art programs, including Stable Diffusion and Midjourney, are currently being sued by artists and photography agencies; OpenAI and Microsoft (along with its subsidiary tech site GitHub) are also being sued for software piracy over the creation of their AI coding assistant Copilot. The outcry might force a change in laws, says Lilian Edwards, a specialist in Internet law at Newcastle University, UK.

Similar Posts