[해외 DS] AI 모델, 시간이 흐른다고 항상 발전하지 않는다

GPT-4, 석 달 만에 성능 저하 현상 보여 인간 피드백형 학습 방식이 원인 제공했을 가능성 있어 추론을 모방할 뿐, 논리적인 문제 해결 능력은 부족

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=Scientific American

지난 3월 OpenAI가 텍스트 생성 인공지능인 대규모언어모델(이하 LLM) GPT-4를 출시했을 때 소수를 식별하는 이진 분류 작업을 능숙하게 수행했다. 소수와 합성수가 각각 500개가 들어있는 1,000개의 숫자 리스트를 주면 84.0%의 정확도로 소수를 분류해 냈다. 하지만 단 석 달 후인 6월엔 정확도가 51.1%까지 떨어졌다. 정량적 응답을 해야 하는 다른 수학 문제에서도 83.6%에서 35.2%로 정확도가 대폭 하락했다. 6월 GPT-4가 3월의 모델보다 성능이 떨어질 뿐만 아니라 두 수학 문제 모두 이전 버전인 6월 GPT-3.5가 더 우수한 성적을 거뒀다. 시간이 지나면서 더 많은 데이터로 더 많이 학습하면 모델 성능도 자연스럽게 발전할 것으로 생각하지만 시간이 지남에 따라 성능이 저하되는 현상도 발생한다.

긍정적인 테스트 결과도 있었다. 민감하거나 주관적인 질문에 대해서는 답을 피하고 짧게 응답하는 등 조금 더 안전해진 면도 있다. 특히 장황하지 않게 답하려는 경향이 생겼다. 스탠퍼드 대학과 버클리 캘리포니아 대학의 연구자들이 3월과 6월의 GPT-4와 GPT-3.5로 다양한 비교실험을 진행했으며 이들의 분석 결과는 아직 동료심사를 거치지 않았지만 많은 사람의 관심을 끌었다. 연구가 공개됐을 때 일부 AI 애호가들은 자신의 사용 경험과 비슷하다고 공감하고 몇몇 헤드라인은 “ChatGPT가 점점 멍청해지는 건가?”라는 질문을 제기했다. 또 다른 뉴스 보도에서는 ChatGPT가 점점 멍청해지고 있다고 단정 지었다.

하지만 스탠드 대학교의 데이터 과학 조교수이자 앞서 언급한 연구의 공동 저자 중 한 명인 제임스 저우(James Zou)는 이러한 반응들은 모두 생성형 AI 모델에서 실제로 일어나는 일을 지나치게 단순화한 것일 가능성이 높다고 말한다. “일반적으로 시간이 지남에 따라 GPT-4 또는 GPT-3.5가 더 좋아지고 있는지 또는 더 나빠지고 있는지 말하기는 매우 어렵습니다”라고 저우 교수는 설명했다. 결국 “더 좋아졌다”는 것은 주관적이기 때문이다.

소통 의사 없는 OpenAI 때문에 자체 분석 진행하는 사용자들

외부 개입 없이 이렇게 큰 성능 차이가 날 수 없다. OpenAI는 나름의 지표를 활용해서 모델 출시 이후에도 꾸준히 업데이트했을 것으로 추정된다. 다만 그들이 의도하지 않았던 분야에서 성능 저하도 함께 반영됐고 회사의 공식 블로그를 통해 이를 인정했다. 그러나 모델 업데이트에 대한 벤치마크 데이터를 공개하지 않았고 위의 실험 결과에 대해서 논평하길 거부했다. 불투명한 소통 방식의 피해는 오로지 사용자들의 몫이다. 모델 드리프트가 생길 때마다 익숙했던 프롬프트 방식을 바꿔야 하고, 그 위에 구축된 애플리케이션 전체가 오작동하기 시작하므로 업무 효율이 크게 떨어졌다. LLM에 대한 업무 의존도가 커지는 만큼 피해가 증가할 것으로 예상된다. 외부의 다른 연구자들이 할 수 있는 일은 자체 테스트 결과를 취합하고 다른 기계학습 지식을 바탕으로 원인을 추측하는 것뿐이다.

학습 데이터 구성과 파인튜닝 과정을 원인으로 추정

GPT-4와 같은 LLM은 수천억 개의 매개 변수가 있다. 코드 한 줄 한 줄이 명확한 기능과 매칭이 되는 기존 컴퓨터 프로그램과 달리 생성형 AI 모델에서는 단일 파라미터와 모델 특성 간의 정확한 일대일 관계를 도출할없는 경우가 많다. 그 때문에 초기 학습매개변수를 직접 변경하는 대신, 학습 데이터에 인간 피드백을 반영하는 파인튜닝 작업으로 성능을 높이는 게 일반적이다. 파인튜닝도 마찬가지로 피드백을 반영하는 과정에서 생각하지 못한 상충 관계 인해 특정 영역에서 성능 저하가 발생할 수 있다.

저우 교수는 파인튜닝을 유전자 편집에 비유한다. AI 매개변수는 DNA 염기쌍과 유사하며 파인튜닝은 돌연변이를 도입하는 것과 같고, 두 프로세스 모두 코드를 변경하거나 한 가지 결과를 염두에 두고 학습 데이터를 추가하면 다른 곳에 악영향을 미칠 가능성이 있다고 설명한다. 저우 교수와 다른 연구자들은 대규모 AI 모델을 더 정밀하게 수정하는 방법을 연구하고 있으나 이를 위한 최선의 방법론은 아직 찾지 못했다고 밝혔다.

GPT-4의 경우 해로운 답변을 제공하지 않는 도구를 만들려고 노력했을 가능성이 있다. 안전을 우선시하다 보니 다른 기능이 포함되지 않았을 수도 있다고 컬럼비아 대학교의 컴퓨터 과학 교수인 캐시 맥키언(Kathy McKeown)은 말했다. 예를 들어 OpenAI는 허용되는 발언에 대한 새로운 제약 조건을 설정해서 모델이 부적절한 정보를 공유하지 못하도록 하려 했으나 소수 식별에 대한 AI의 수다스러움을 줄이는 결과를 낳았을 가능성이 있다. 또는 파인튜닝 과정에서 낮은 품질의 새로운 학습 데이터가 도입되어 특정 수학적 주제에 대한 응답 수준이 떨어졌을 수도 있다.

독립적 추론 능력도 없고 도움 되던 사고사슬 프롬프팅도 이제 안 통해

“소수를 식별하는 GPT-4의 실제 능력은 3월과 6월 사이에 크게 달라진 것이 없어 보입니다”라고 프린스턴 대학교 컴퓨터과학 박사 과정생 사야시 카푸어(Sayash Kapoor)가 말했다. 문제 뒷면의 논리를 이해하지 않고 텍스트 문자열을 확률적으로 생성하도록 구축된 LLM이 독립적인 추론 능력이 없다는 주장이다. 가령 모델을 파인튜닝 하는 데 사용된 데이터의 특성으로 인해 3월 이후 GPT-4에 더 적은 소수와 더 많은 합성수에 노출되어 시간이 지남에 따라 소수 여부에 대한 기본 답변이 “예”에서 “아니오”로 변경되었을 수 있다는 논리다. 이는 저우 교수가 진행했던 실험에서도 관찰된 6월의 GPT-4와 GPT-3.5의 기본 응답 패턴과 일치한다. 결과적으로 GPT는 실제로 소수 여부를 계산한 것이 아니라 학습 데이터에서 파악한 확률적 추정에 따라 가장 가능성이 높아 보이는 답변을 제공했었다.

이것이 인간이 나쁜 정신 습관을 기르는 것과 비슷하지 않냐는 질문에 카푸어는 그런 비유는 맞지 않다고 답했다. 물론 인공신경망이 비정상적인 사고 패턴을 포착할 수 있지만, 그 뒤에 논리가 있는 것은 아니라고 말했다. 사람의 생각은 세상을 이해하고 맥락 화하는 방식 때문에 틀에 박힌 사고에 빠질 수 있지만, AI는 맥락도 없고 독립적인 이해도 없으므로 인간의 심리작용과는 다르다는 것이다. 카푸어는 “LLM은 서로 다른 단어 간의 관계를 정의하기 위한 방대한 양의 데이터만 있을 뿐입니다”라고 꼬집었다. “실제로 추론을 수행하는 것이 아니라 추론을 모방하는 것일 뿐입니다.”

LLM의 성능 기복을 줄이기 위해 사고사슬 프롬프팅(Chain-of-thought prompting) 전략이 고안되기도 했다. 하지만 6월 GPT-4에선 사고사슬 프롬프팅의 효과가 사라졌다. 사고사슬 프롬프팅으로 단계적 결과 도출을 명령했지만 풀이 과정이 없는 간결한 문장으로 답했고 정답률도 낮았다. 이와 대조적으로 3월 GPT-4는 풀이 과정을 단계적으로 기록했고 같은 질문에 대해서 정확도가 크게 향상됐다. GPT-3.5로도 사고사슬 프롬프팅 유무의 영향을 비교해 본 결과 사고사슬 프롬프팅을 쓰지 않은 3월 GPT-3.5의 정확도가 6월 GPT-4의 정확도와 비등했다. 해당 실험 연구자들은 장기적으로 모델 성능을 검증할 계획이라고 밝혔고 LLM을 업무에 활용하는 기관과 기업도 비슷한 검증 시스템을 구축하길 권유하며 실험 데이터와 소스 코드 모두 공개했다.


When OpenAI released its latest text-generating artificial intelligence, the large language model GPT-4, in March, it was very good at identifying prime numbers. When the AI was given a series of 500 such numbers and asked whether they were primes, it correctly labeled them 97.6 percent of the time. But a few months later, in June, the same test yielded very different results. GPT-4 only correctly labeled 2.4 percent of the prime numbers AI researchers prompted it with—a complete reversal in apparent accuracy. The finding underscores the complexity of large artificial intelligence models: instead of AI uniformly improving at every task on a straight trajectory, the reality is much more like a winding road full of speed bumps and detours.

The drastic shift in GPT-4’s performance was highlighted in a buzzy preprint study released last month by three computer scientists: two at Stanford University and one at the University of California, Berkeley. The researchers ran tests on both GPT-4 and its predecessor, GPT-3.5, in March and June. They found lots of differences between the two AI models—and also across each one’s output over time. The changes that just a few months seemed to make in GPT-4’s behavior were particularly striking.

Across two tests, including the prime number trials, the June GPT-4 answers were much less verbose than the March ones. Specifically, the June model became less inclined to explain itself. It also developed new quirks. For instance, it began to append accurate (but potentially disruptive) descriptions to snippets of computer code that the scientists asked it to write. On the other hand, the model seemed to get a little safer; it filtered out more questions and provided fewer potentially offensive responses. For instance, the June version of GPT-4 was less likely to provide a list of ideas for how to make money by breaking the law, offer instructions for how to make an explosive or justify sexism or racism. It was less easily manipulated by the “jailbreak” prompts meant to evade content moderation firewalls. It also seemed to improve slightly at solving a visual reasoning problem.

When the study (which has not yet been peer reviewed) went public, some AI enthusiasts saw it as proof of their own anecdotal observations that GPT-4 was less useful than its earlier version. A handful of headlines posed the question, “Is ChatGPT getting dumber?” Other news reports more definitively declared that, yes, ChatGPT is becoming stupider. Yet both the question and that supposed answer are likely an oversimplification of what’s really going on with generative AI models, says James Zou, an assistant professor of data science at Stanford University and one of the recent study’s co-authors.

“It’s very difficult to say, in general, whether GPT-4 or GPT-3.5 is getting better or worse over time,” Zou explains. After all, “better” is subjective. OpenAI claims that, by the company’s own internal metrics, GPT-4 performs to a higher standard than GPT-3.5 (and earlier versions) on a laundry list of tests. But the company hasn’t released benchmark data on every single update that it has made. An OpenAI spokesperson declined to comment on Zou’s preprint when contacted by Scientific American. The company’s unwillingness to discuss how it develops and trains its large language models, coupled with the inscrutable “black box” nature of AI algorithms, makes it difficult to determine just what might be causing the changes in GPT-4’s performance. All Zou and other researchers outside the company can do is speculate, draw on what their own tests show and extrapolate from their knowledge of other machine-learning tools.

What is already clear is that GPT-4’s behavior is different now than it was when it was first released. Even OpenAI has acknowledged that, when it comes to GPT-4, “while the majority of metrics have improved, there may be some tasks where the performance gets worse,” as employees of the company wrote in a July 20 update to a post on OpenAi’s blog. Past studies of other models have also shown this sort of behavioral shift, or “model drift,” over time. That alone could be a big problem for developers and researchers who’ve come to rely on this AI in their own work.

“People learn how to prompt a model to get the behavior they want out of it,” says Kathy McKeown, a professor of computer science at Columbia University. “When the model changes underneath them, then they [suddenly] have to write prompts in a different way.” Vishal Misra, also a computer science professor at Columbia, agrees. Misra has used GPT to create data interfaces in the past. “You’ll begin to trust a certain kind of behavior, and then the behavior changes without you knowing,” he says. From there, “your whole application that you built on top starts misbehaving.”

So what is causing the AI to change over time? Without human intervention, these models are static. Companies such as OpenAI are constantly seeking to make programs the best they can be (by certain metrics)—but attempted improvements can have unintended consequences.

There are two main factors that determine an AI’s capability and behavior: the many parameters that define a model and the training data that go into refining it. A large language model such as GPT-4 might contain hundreds of billions of parameters meant to guide it. Unlike in a traditional computer program, where each line of code serves a clear purpose, developers of generative AI models often cannot draw an exact one-to-one relationship between a single parameter and a single corresponding trait. This means that modifying the parameters can have unexpected impacts on the AI’s behavior.

Instead of changing parameters directly, after the initial training, developers often put their models through a process they call fine-tuning: they introduce new information, such as feedback from users, to hone the system’s performance. Zou compares fine-tuning an AI to gene editing in biology—AI parameters are analogous to DNA base pairs, and fine-tuning is like introducing mutations. In both processes, making changes to the code or adding training data with one outcome in mind carries the potential for ripple effects elsewhere. Zou and others are researching how to make adjusting big AI models more precise. The goal is to be able to “surgically modify” an AI’s guidelines “without introducing undesirable effects,” Zou says. Yet for now, the best way to do that remains elusive.

In the case of GPT-4, it’s possible that the OpenAI developers were trying to make the tool less prone to offering answers that might be deemed offensive or dangerous. And through prioritizing safety, maybe other capabilities got caught up in the mix, McKeown says. For instance, OpenAI may have used fine-tuning to set new limits on what the model is allowed to say. Such a change might have been intended to prevent the model from sharing undesirable information but inadvertently ended up reducing the AI’s chattiness on the topic of prime numbers. Or perhaps the fine-tuning process introduced new, low-quality training data that reduced the level of detail in GPT-4’s answers on certain mathematical topics.

Regardless of what’s gone on behind the scenes, it seems likely that GPT-4’s actual capacity to identify prime numbers didn’t really change between March and June. It’s quite possible that the large language model—built to probabilistically generate human-sounding strings of text and not to do math—was never really all that good at prime recognition in the first place, says Sayash Kapoor, a computer science Ph.D. candidate at Princeton University.

Instead Kapoor speculates that the shift in prime detection could be an illusion. Through a quirk in the data used to fine-tune the model, developers might have exposed GPT-4 to fewer primes and more compound numbers after March, thus changing its default answer on questions of primeness over time from “yes” to “no.” In both March and June GPT-4 may not really have been assessing primeness but just offering the answer that seemed most likely based on incidental trends it absorbed from the data it was fed.

Asked if this would be akin to a human developing a bad mental habit, Kapoor refuses the analogy. Sure, neural networks can pick up maladaptive patterns, he says—but there’s no logic behind it. Where a person’s thoughts might fall into a rut because of how we understand and contextualize the world, an AI has no context and no independent understanding. “All that these models have are huge tons of data [meant to define] relationships between different words,” Kapoor says. “It’s just mimicking reasoning, rather than actually performing that reasoning.”

Similar Posts