[해외 DS] 생성형 AI가 만든 데이터를 학습한 AI는 결국 오류를 낳는다

생성형 AI의 오류 학습한 차세대 AI의 등장 가능성에 전문가들 우려 표명 아마존 크라우드 소싱 플랫폼 ‘메커니컬 테크’가 대표적인 예 ‘모델 붕괴’ 해결 위해 사람이 만든 컨텐츠만 학습해야하는데, 제대로 된 필터링 어려워

Policy Korea

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

생성형 AI로 우리가 사는 세상은 나날이 편리해지고 있다. 코딩을 잘 모르는 비전공자도 이제는 챗GPT를 활용해 전에는 넘보지 못했던 개발을 시도해 볼 수 있다. 심지어 디자인에 문외한이더라도 미드저니(Midjourney), DALL-E2 등의 이미지 생성 툴들을 활용해 인간 디자이너의 작업물과 맞먹는 수준의 콘텐츠를 뽑아낼 수 있다.

이렇듯 생성형 AI를 실생활에 활용할 수 있는 범위가 확대되는 가운데, 인터넷에는 생성형 AI가 만들어 낸 콘텐츠들이 쏟아지고 있다. 예컨대 세계적인 테크 언론사 씨넷(CNET), 기즈모도(Gimodo) 등을 비롯한 수많은 웹사이트가 대규모 언어 모델(Large Language Model)을 활용해 다양한 기사를 써내고 있는 것으로 알려졌다.

그런데 최근 생성형 AI가 만들어 낸 콘텐츠로 학습한 모델이 잘못된 결과를 출력할 수 있다는 지적이 제기됐다. 이와 관련해 스코틀랜드 에든버러 대학교 소속 컴퓨터 과학자 릭 사카르는 “인터넷에 퍼져 있는 생성형 AI 콘텐츠를 학습한 차세대 대규모 언어 모델이 오류를 확대 재생산할 우려가 있다”며 무분별한 생성형 AI 활용에 주의를 당부했다.

차세대 생성형 AI, 인터넷에 퍼진 기존 AI의 오륫값 그대로 학습한다

영국 옥스포드 대학 교수 일리아 슈마일로프가 주축으로 구성된 연구팀이 발표한 논문인 ‘재귀의 저주(The curse of Recursion)’에 따르면, AI가 생성한 콘텐츠가 차기 생성형 AI의 훈련 데이터에 조금이라도 포함되면 결국 해당 모델에게 악영향을 주게 되는 ‘모델 붕괴(Model Collapse)’가 발생한다. 슈마일로프는 이같은 현상이 여러 차례에 걸쳐 반복되면 결국 “모델이 쓸모없어지게 된다”고 강조했다.

모델 붕괴를 실제로 확인하기 위해, 해당 논문에서 연구팀은 먼저 사람이 만들어 낸 데이터로 학습한 챗GPT와 같은 대규모 언어 모델로 일부 텍스트를 출력했다. 이렇게 출력된 텍스트들을 새로운 모델의 학습 데이터로 활용한 뒤, 학습된 모델로부터 텍스트를 다시 뽑아낸다. 이같은 과정을 세 번째, 네 번째에 걸쳐 계속 반복하면 회차마다 오류가 쌓이게 되는데, 이에 따라 10번째 모델에게 영국 건축에 대해 글을 쓰도록 요청했을 때 모델이 질문과 관련 없는 터무니 없는 대답을 내놨다고 연구팀은 설명했다.

또한 연구팀은 이미지 생성형 AI, 두 확률 분포를 분리하는 모델 등 위 언어 모델 이외 다양한 AI 알고리즘에서 모델 붕괴 현상이 발생한다고 밝혔다. 이와 관련, 슈마일로프는 “자연어, 이미지 분야를 막론하고 수학・통계학적으로 복잡한 모델은 해당 현상이 여지 없이 발생했다”며 “심지어 가장 단순한 수준의 모델인 숫자 생성 AI에서도 해당 현상이 일부 나타나는 것을 확인했다”고 힘줘 말했다.

‘모델 붕괴’로 인해 차세대 모델 대부분은 성・인종 편향 확대 재생산할 가능성 높아

이같은 모델 붕괴 현상은 AI가 일부 관여한 데이터에도 발생할 수 있는 것으로 분석된다. 슈마일로프는 “AI가 훈련 데이터에 관여하는 한 문제가 발생한다”면서도 “모델 붕괴를 일으키는데 정확히 얼마나 생성형 AI 콘텐츠가 필요한지는 추후 연구를 통해 밝혀야 할 부분”이라고 언급했다.

한편 연구진은 방대한 데이터 셋을 학습한 모델이 소규모 모델보다 모델 붕괴에 더 저항력이 있을 것이라는 가설에 착안, 위의 챗GPT 및 디퓨전 모델 등의 거대 모델 이외에도 훈련 데이터를 상대적으로 적게 사용하는 모델로도 실험을 진행했다고 밝혔다. 그러나 실험 결과, 모델 붕괴는 데이터 셋의 크기와 상관 없이 발생하는 것으로 나타났다.

현재까지 연구에 따르면 모델 붕괴는 데이터 분포의 꼬리 부분, 즉 극단값 및 이상값에서 크게 나타나는 것으로 확인된다. 이러한 꼬리에선 ‘표준’에서 더 멀리 떨어진 데이터가 포함됐기 때문에 모델이 오류를 출력할 가능성이 커지고, 이를 학습한 새로운 모델이 오류를 보다 빠르게 확대 재생산할 수 있다는 설명이다. 또한 일반적으로 생성형 AI 모델 학습을 위해 수집하는 텍스트 데이터 분포의 극단값이 성・인종 차별적 표현에 해당하는 만큼, 관련된 조치를 취하지 않으면 생성형 AI 모델의 소수 집단에 대한 편향은 세대를 교체하면서 눈덩이처럼 불어날 것이라는 게 슈마일로프의 설명이다.

현실적 문제로 자리잡은 모델 붕괴 문제, 제대로 된 해결책은 미비한 실정

문제는 생성형 AI가 만들어 낸 방대한 콘텐츠들이 이미 인터넷 도처에 확산하고 있다는 것이다. 실제 지난해 11월 유수 테크 언론사 씨넷(CNET)은 경제 및 금융 주제를 챗GPT의 도움을 받아 작성하기 시작했다. 또한 최근 이슈가 되고 있는 미국작가협회(WGA)의 파업도 영화・TV 업계 제작자들이 작가들이 작성한 기존 작품을 AI를 활용해 새롭게 대본을 쓰기 시작하면서 발생했다.

또한 AI가 생성한 데이터가 다른 생성형 AI의 모델의 학습 데이터로 활용될 것이라는 징후도 속속 발견되고 있다. 미국 아마존이 운영하는 메커니컬 터크(Mechanical Turk)가 대표적인 예다. 메커니컬 터크는 일감을 가진 수요자와 그 일을 할 수 있는 공급자를 연결해 주는 웹 기반 크라우드 소싱 서비스다. AI 개발자들은 차세대 생성형 AI 개발을 위해 타겟값에 해당하는 레이블을 지정하는 허드렛일, 예컨대 사진 속 물체가 고양이인지 개인지를 구분하는 일을 메커니컬 터크에 맡기고, 이를 공급자가 수행하고 임금을 받는다. 그런데 최근 이같은 분류 업무를 생성형 AI에게 대신 맡기게 되면서 모델 붕괴가 발생할 가능성이 커지고 있다는 게 전문가들의 분석이다. 실제 로잔 연방 공과대학교(EPFL) 연구팀이 메카니컬 터크 웹 사이트에 의학 연구 초록 요약을 의뢰한 결과, 총의뢰 건의 약 1/3 이상이 챗GPT를 거친 것으로 집계됐다.

일각에선 모델 붕괴를 방지하기 위해 생성형 AI가 개발되기 이전 시점의 데이터만 활용하면 된다는 식의 미봉책을 내놓는다. 그러나 하루가 멀게 급변하는 글로벌 상황에서, 오래된 데이터를 학습한 생성형 AI를 통해 유용한 인사이트를 얻을 수 있다는 건 불가능에 가까울 것으로 보인다. 이와 관련해 슈마일로프는 “지난 100년 동안의 뉴스를 수집해서 오늘의 뉴스를 예측하는 생성형 AI는 분명히 작동하지 않을 것”이라고 밝혔다.

대신 전문가들은 사람이 만든 콘텐츠와 생성형 AI가 만든 콘텐츠를 정확하게 ‘필터링’하는 알고리즘이 필요한 시점이라고 제언한다. 생성형 AI의 손길이 닿지 않은 ‘순수한 데이터’만을 학습 데이터로 활용해야 한다는 지적이다. 생성형 AI가 만든 이미지인지 감별해 주는 사이트인 ‘AI OR NOT’이 대표적인 예다. 이 사이트는 ‘빛의 각도가 자연스러운지’를 기준으로 알고리즘이 실제 사진과 AI가 생성한 사진을 구분한다.

그러나 위 ‘AI OR NOT’의 경우도 시각 전문가가 직접 합성 이미지를 구분하는 것이 아닌 만큼, 완벽한 정확도를 기대하기는 어려울 것으로 분석된다. 또한 해당 사이트는 미드저니, Dall-E2와 같은 GAN(Generative Adversarial Networks, 생성적 적대 신경망)에 의해 만들어진 이미지만 구분할 뿐, 포토샵 기반의 생성형 AI는 구분하지 못하는 한계가 있다. 아울러 사람이 생성형 AI가 만든 이미지를 편집한 2차 창작물의 경우, 이를 사람의 콘텐츠로 봐야 할지, 생성형 AI의 콘텐츠로 봐야 할지에 대한 문제도 풀어야 할 숙제로 남아있다.


Thanks to a boom in generative artificial intelligence, programs that can produce text, computer code, images and music are readily available to the average person. And we’re already using them: AI content is taking over the Internet, and text generated by “large language models” is filling hundreds of websites, including CNET and Gizmodo. But as AI developers scrape the Internet, AI-generated content may soon enter the data sets used to train new models to respond like humans. Some experts say that will inadvertently introduce errors that build up with each succeeding generation of models.

A growing body of evidence supports this idea. It suggests that a training diet of AI-generated text, even in small quantities, eventually becomes “poisonous” to the model being trained. Currently there are few obvious antidotes. “While it may not be an issue right now or in, let’s say, a few months, I believe it will become a consideration in a few years,” says Rik Sarkar, a computer scientist at the School of Informatics at the University of Edinburgh in Scotland.

The possibility of AI models tainting themselves may be a bit analogous to a certain 20th-century dilemma. After the first atomic bombs were detonated at World War II’s end, decades of nuclear testing spiced Earth’s atmosphere with a dash of radioactive fallout. When that air entered newly-made steel, it brought elevated radiation with it. For particularly radiation-sensitive steel applications, such as Geiger counter consoles, that fallout poses an obvious problem: it won’t do for a Geiger counter to flag itself. Thus, a rush began for a dwindling supply of low-radiation metal. Scavengers scoured old shipwrecks to extract scraps of prewar steel. Now some insiders believe a similar cycle is set to repeat in generative AI—with training data instead of steel.

Researchers can watch AI’s poisoning in action. For instance, start with a language model trained on human-produced data. Use the model to generate some AI output. Then use that output to train a new instance of the model and use the resulting output to train a third version, and so forth. With each iteration, errors build atop one another. The 10th model, prompted to write about historical English architecture, spews out gibberish about jackrabbits.

“It gets to a point where your model is practically meaningless,” says Ilia Shumailov, a machine learning researcher at the University of Oxford.

Shumailov and his colleagues call this phenomenon “model collapse.” They observed it in a language model called OPT-125m, as well as a different AI model that generates handwritten-looking numbers and even a simple model that tries to separate two probability distributions. “Even in the simplest of models, it’s already happening,” Shumailov says. “I promise you, in more complicated models, it’s 100 percent already happening as well.”

In a recent preprint study, Sarkar and his colleagues in Madrid and Edinburgh conducted a similar experiment with a type of AI image generator called a diffusion model. Their first model in this series could generate recognizable flowers or birds. By their third model, those pictures had devolved into blurs.

Other tests showed that even a partly AI-generated training data set was toxic, Sarkar says. “As long as some reasonable fraction is AI-generated, it becomes an issue,” he explains. “Now exactly how much AI-generated content is needed to cause issues in what sort of models is something that remains to be studied.”

Both groups experimented with relatively modest models—programs that are smaller and use fewer training data than the likes of the language model GPT-4 or the image generator Stable Diffusion. It’s possible that larger models will prove more resistant to model collapse, but researchers say there is little reason to believe so.

The research so far indicates that a model will suffer most at the “tails” of its data—the data elements that are less frequently represented in a model’s training set. Because these tails include data that are further from the “norm,” a model collapse could cause the AI’s output to lose the diversity that researchers say is distinctive about human data. In particular, Shumailov fears this will exacerbate models’ existing biases against marginalized groups. “It’s quite clear that the future is the models becoming more biased,” he says. “Explicit effort needs to be put in order to curtail it.”

Perhaps all this is speculation, but AI-generated content is already beginning to enter realms that machine-learning engineers rely on for training data. Take language models: even mainstream news outlets have begun publishing AI-generated articles, and some Wikipedia editors want to use language models to produce content for the site.

“I feel like we’re kind of at this inflection point where a lot of the existing tools that we use to train these models are quickly becoming saturated with synthetic text,” says Veniamin Veselovskyy, a graduate student at the Swiss Federal Institute of Technology in Lausanne (EPFL).

There are warning signs that AI-generated data might enter model training from elsewhere, too. Machine-learning engineers have long relied on crowd-work platforms, such as Amazon’s Mechanical Turk, to annotate their models’ training data or to review output. Veselovskyy and his colleagues at EPFL asked Mechanical Turk workers to summarize medical research abstracts. They found that around a third of the summaries had ChatGPT’s touch.

The EPFL group’s work, released on the preprint server arXiv.org last month, examined only 46 responses from Mechanical Turk workers, and summarizing is a classic language model task. But the result has raised a specter in machine-learning engineers’ minds. “It is much easier to annotate textual data with ChatGPT, and the results are extremely good,” says Manoel Horta Ribeiro, a graduate student at EPFL. Researchers such as Veselovskyy and Ribeiro have begun considering ways to protect the humanity of crowdsourced data, including tweaking websites such as Mechanical Turk in ways that discourage users from turning to language models and redesigning experiments to encourage more human data.

Against the threat of model collapse, what is a hapless machine-learning engineer to do? The answer could be the equivalent of prewar steel in a Geiger counter: data known to be free (or perhaps as free as possible) from generative AI’s touch. For instance, Sarkar suggests the idea of employing “standardized” image data sets that would be curated by humans who know their content consists only of human creations and freely available for developers to use.

Some engineers may be tempted to pry open the Internet Archive and look up content that predates the AI boom, but Shumailov doesn’t see going back to historical data as a solution. For one thing, he thinks there may not be enough historical information to feed growing models’ demands. For another, such data are just that: historical and not necessarily reflective of a changing world.

“If you wanted to collect the news of the past 100 years and try and predict the news of today, it’s obviously not going to work, because technology’s changed,” Shumailov says. “The lingo has changed. The understanding of the issues has changed.”

The challenge, then, may be more direct: discerning human-generated data from synthetic content and filtering out the latter. But even if the technology for this existed, it is far from a straightforward task. As Sarkar points out, in a world where Adobe Photoshop allows its users to edit images with generative AI, is the result an AI-generated image—or not?

Similar Posts