[해외DS] ‘설명 가능한 AI’ 시대의 도래 (2)

AtMan, 기존의 간섭 모델 방식(Perturbation Model)의 비용 문제 해결 어텐션 메커니즘(Attention Mechanism)의 확장, “집중” 조절 가능하다 “환각”문제는 그대로지만 기술의 성능과 잠재력이 더 크다

pabii research

[해외DS] ‘설명 가능한 AI’ 시대의 도래 (1)에서 이어집니다

AI를 설명하려는 시도와 비용이라는 장벽

AI가 만들어 낸 결과물만큼 그 결과물에 쓰인 근거나 정보가 중요할 때가 있습니다. 가령, 질병 감염 여부를 검사하는 의료 AI로부터 양성 판정을 받았을 때, 판정의 근거가 되는 근본적인 요인이 궁금할 것입니다. 이와 같은 AI에 대한 의문을 부분적으로 설명할 방법은 많고, 그중 역전파(Back Propagation)와 간섭 모델(Perturbation Model)이 가장 널리 쓰이고 있습니다.

역전파 방식은 입력값으로부터 출력값이 생성되는 과정을 역추적하는 것입니다. 역추적이란 신경망에서 가장 높은 가중치들을 가진 시냅스들로부터 출력값에 영향을 가장 크게 미친 입력값을 찾아내는 것을 의미합니다.

간섭 모델 방식은 입력값의 미세 조정에 따른 출력값의 변화를 관찰하는 것입니다. 역전파 방식과 마찬가지로 간섭 모델 방식을 통해 AI의 출력값을 가장 잘 설명할 수 있는 입력값을 알아낼 수 있습니다.

하지만 위 두 가지 방식으로 ChatGPT, Dall-E, Luminous와 같은 대규모 AI를 설명할 수는 없습니다. 비용이 많이 들기 때문입니다. 역전파 방식의 경우 대규모 AI의 파라미터 수천억 개를 추적해야 하고, 이는 막대한 메모리 자원을 요구합니다. 훈련 기간 동안 대형 데이터 센터의 컴퓨팅 자원으로는 가능할 수 있습니다. 하지만 기술이 상용화된 시점 이후에도 입력값을 알아내기 위해 역전파를 반복하며 비용을 지불하는 것은 현실적으로 불가능합니다.

간섭 모델 방식에는 메모리 자원이 아니라 계산 성능의 한계가 있습니다. 예를 들어, 이미지 처리 AI에 도널드 트럼프의 얼굴 사진을 보여주고 이름을 물어봤을 때 AI가 정답을 맞힌 경우를 생각해 봅시다. 이 AI가 이미지의 어떤 부분을 통해 정답을 맞힐 수 있던 건지 알기 위해 간섭 모델 방식을 사용하는 건 어떨까요? 아마 막대한 계산 비용과 시간이 들 것입니다. 이미지의 픽셀을 하나씩 바꿀 때마다 그 결과가 어떤지 봐야 하니까요.

하지만, AtMan의 개발팀은 간섭 모델 방식에 드는 계산 비용을 극적으로 낮추는 데에 성공했습니다. 기존 방식에서 값을 바꾸는 곳은 신경망의 입력층이지만, AtMan은 은닉층의 값을 바꾸기 때문입니다. 이 아이디어를 이해하기 위해서는 트랜스포머 모델(Transformer model)을 먼저 살펴봐야 합니다.

트랜스포머 모델의 등장

2017년 구글 브레인 연구진이 개발한 트랜스포머 모델은 ChatGPT와 같은 AI 모델에 쓰이는 신경망입니다. 이미지 처리, 이미지 인식에도 널리 쓰이고 있는 이 기술이 고안된 목적은 자연어 처리 모델의 문제를 해결하는 것이었습니다. 그 문제는 바로 음성을 변환할 때 단어를 수학적으로 표현하기 어렵다는 것입니다.

이미지 변환의 경우에는 이미지를 수학적으로 표현하는 것이 간단합니다. 픽셀값들이 담긴 리스트로 나타내면 되기 때문입니다. 만약 두 리스트가 유사한 정도가 크다면, 두 이미지가 유사한 이미지라고 할 수 있습니다.

하지만 단어의 경우, “집”과 “거주지”와 같이 유사한 의미를 가진 단어들은 그 수학적인 표현이 유사해야 합니다. “집”과 “짐”의 경우에는 수학적인 표현이 서로 달라야겠죠. 이러한 수학적 표현은 기존 방식으로는 불가능하고, 여기에 트랜스포머 모델이 쓰일 수 있다는 것입니다.

언어 AI를 생성할 때 의미가 유사한 단어들은 수학적 표현도 유사해야 한다/사진= Scientific American

트랜스포머 모델 기반의 신경망에 대량의 텍스트를 입력하면, 신경망은 비슷한 맥락에 속한 단어들을 학습하고 이내 수학적으로 표현할 수 있게 됩니다. 즉 유사한 단어들과 이질적인 단어들끼리 구별할 수 있는 것입니다. 하지만 이것만으로는 충분치 않습니다. 신경망의 학습 이후에도 긴 텍스트를 처리할 수 있어야 하기 때문입니다.

집중이 전부다

AI가 긴 텍스트를 처리하는 예시를 들어보겠습니다. 사이언티픽 아메리칸의 독일 버전인 과학의 스펙트럼(Spektrum der Wissenschaft)에 대한 독일어 소개를 번역해달라고 AI에 요청했고 다음과 같은 답변이 나왔습니다. “Spektrum der Wissenschaft는 인기 있는 월간 과학 잡지입니다. 1978년 Scientific American의 독일어판으로 창간되었으며 1845년부터 미국에서 출판되었지만 시간이 지남에 따라 미국 본사와는 점점 더 독립적인 특성을 갖게 되었습니다.” AI는 어떻게 “미국”과 “본사”가 서로 상응한다는 것을 알 수 있었을까요?

바로 트랜스포머 모델의 핵심인 어텐션 메커니즘(Attention Mechanism) 덕분입니다. 어텐션 메커니즘은 AI가 입력 데이터 중 가장 중요한 정보에 집중할 수 있게 합니다. 어떤 단어들이 연관되어 있는지나 어떤 내용이 출력값에 가장 중요할지와 같은 정보 말이죠. 이를 통해 단어들이 아무리 멀리 떨어져 있더라도 단어 간의 관계를 추론할 수 있게 되는 것입니다.

어텐션 메커니즘은 한 문장 내의 단어끼리 지을 수 있는 조합을 모두 고려합니다. 이를 바탕으로 단어 간의 관계를 수학적으로 나타내며 나아가 문장의 핵심 내용을 파악합니다. 이 과정은 신경망의 학습뿐만 아니라 유저가 텍스트를 입력했을 때도 진행됩니다.

어텐션 메커니즘이 고려하는 단어 조합의 예시/사진= Scientific American

이러한 알고리즘을 통해 ChatGPT나 Luminous와 같은 언어 모델이 입력값을 처리하고 출력값을 만들어 낼 수 있는 것입니다. 입력된 텍스트 중 핵심 내용에 집중함으로써 말이죠.

AtMan의 명암, 더 뚜렷해질 것이다

“집중 조절(Attention Manipulation)”의 뜻을 가진 AtMan은 AI가 입력된 문장 중 특정 단어에 집중하는 정도를 조절할 수 있습니다. 또한 입력된 내용 중 집중하거나 무시할 내용을 직접 고를 수도 있습니다. 이는 무엇을 의미할까요? 바로 AtMan이 엄청난 계산 비용이나 시간을 지불하지 않고 AI의 결과물에 영향을 끼친 입력물을 알아낼 수 있다는 것입니다.

간단한 예로, 다음과 같은 문장을 언어 AI에 입력했다고 해봅시다. “안녕하세요. 제 이름은 루카스입니다. 저는 축구와 수학을 좋아해요. 최근 몇년간 …를 공부했습니다.” AI는 빈칸을 다음과 같이 메꿨습니다. “제 전공인 컴퓨터 과학.” 만약 AtMan을 사용하면 어떨까요? AtMan은 입력된 문장 속 “축구”라는 단어에 집중했을 때 “축구 분야”를, “수학”에 집중했을 때는 “수학과 과학 분야”라는 단어로 빈칸을 메꿨습니다. 한편 AtMan은 텍스트뿐만 아니라 트랜스포머 모델이 다루는 모든 데이터를 처리할 수 있습니다.

이러한 AtMan의 성능을 두고 XAI(설명 가능한 인공지능)분야의 중요한 발전이며 여러 AI에 대한 더 깊은 이해가 가능해졌다는 평가가 이루어지고 있습니다. 하지만 한계에 대한 지적도 있습니다. 언어 모델의 고질적인 문제인 “환각(Hallucination)”을 여전히 극복하지 못했다는 것이죠. 입력값의 어떤 부분이 AI의 “환각”을 일으키는지 AtMan은 설명할 수 없습니다.

반대로 AtMan만의 장점도 있습니다. AI가 입력값 중 어떤 내용에 집중할지 정할 수 있다는 것이죠. 이에 슈라모프스키는 “사람의 신용도를 계산하는 AI를 다루는 경우 AtMan은 중요한 역할을 할 수 있다”며 “만약 AI가 신용도를 평가할 때 인종이나 성별, 출신지와 같은 민감한 정보를 고려한다면 AtMan을 통해 그 정보에 대한 AI의 집중을 조절할 수 있다”고 전했습니다.

나아가 AtMan의 잠재력에 대한 언급도 이어지고 있습니다. AtMan의 개발자 데이세로스(Deiseroth)는 “AtMan은 더한 것도 할 수 있다”며 “AI에 대한 AtMan의 설명을 통해 AI를 개선할 수 있다”고 전했습니다. 한편 잘 훈련된 AI의 경우 규모가 작을수록 성능이 더 좋다는 기존 연구가 주목 받고 있습니다. 이 결과가 AtMan과 대규모 트랜스포머 모델을 활용한 AI에도 적용이 가능할 지 논의가 이어지고 있습니다. 이를 두고 데이세로스는 “적용이 가능해도 확인해야 하는 것은 여전합니다”라는 반응을 보였습니다.


TWO METHODS FOR UNDERSTANDING AI RESULTS

Often, however, it is not merely the AI’s answer that is interesting but also what information led it to its judgment. For example, in the medical field, one would like to know why a program believes it has detected signs of a disease in a scan. To find out, one could of course look into the source code of the trained model itself because it contains all the information. But modern neural networks have hundreds of billions of parameters—so it’s impossible to keep track of all of them.

Nevertheless, ways exist to make an AI’s results more transparent. There are several different approaches. One is backpropagation. As in the training process, one traces back how the output was generated from the input data. To do this, one must backtrack the “synapses” in the network with the highest weights and can thus infer the original input data that most influenced the result.

Another method is to use a perturbation model, in which human testers can change the input data slightly and observe how this changes the AI’s output. This makes it possible to learn which input data influenced the result most.

These two XAI methods have been widely used. But they fail with large AI models such as ChatGPT, Dall-E or Luminous, which have several billion parameters. Backpropagation, for example, lacks the necessary memory: If the XAI traverses the network backward, one would have to keep a record of the many billions of parameters. While training an AI in a huge data center, this is possible—but the same method cannot be repeated constantly to check an input.

In the perturbation model the limiting factor is not memory but rather computing power. If one wants to know, for example, which area of an image was decisive for an AI’s response, one would have to vary each pixel individually and generate a new output from it in each instance. This requires a lot of time, as well as computing power that is not available in practice.

To develop AtMan, Kersting’s team successfully adapted the perturbation model for large AI systems so that the necessary computing power remained manageable. Unlike conventional algorithms, AtMan does not vary the input values directly but modifies the data that is already a few layers deeper in the network. This saves considerable computing steps.

AN EXPLAINABLE AI FOR TRANSFORMER MODELS

To understand how this works, you need to know how AI models such as ChatGPT function. These are a specific type of neural network, called transformer networks. They were originally developed to process natural language, but they are now also used in image generation and recognition.

The most difficult task in processing speech is to convert words into suitable mathematical representations. For images, this step is simple: convert them into a long list of pixel values. If the entries of two lists are close to each other, then they also correspond to visually similar images. A similar procedure must be found for words: semantically similar words such as “house” and “cottage” should have a similar representation, while similarly spelled words with different meanings, such as “house” and “mouse,” should be further apart in their mathematical form.

 

When creating a language model, one of the most difficult tasks is to present words appropriately. Expressions that are similar in meaning should also be similar in their mathematical representation. Credit: Manon Bischoff/Spektrum der Wissenschaft, styled by Scientific American

Transformers can master this challenging task: they convert words into a particularly suitable mathematical representation. This requires a lot of work, however. Developers have to feed the network a number of texts so that it learns which words appear in similar environments and are thus semantically similar.

IT’S ALL ABOUT ATTENTION

But that alone is not enough. You also have to make sure that the AI understands a longer input after training. For example, take the first lines of the German-language Wikipedia entry on Spektrum der Wissenschaft. They translate roughly to “Spektrum der Wissenschaft is a popular monthly science magazine. It was founded in 1978 as a German-language edition of Scientific American, which has been published in the U.S. since 1845, but over time has taken on an increasingly independent character from the U.S. original.” How does the language model know what “U.S.” and “original” refer to in the second sentence? In the past, most neural networks failed at such tasks—that is, until 2017, when experts at Google Brain introduced a new type of network architecture based solely on the so-called attention mechanism, the core of transformer networks.

Attention enables AI models to recognize the most important information in an input: Which words are related? What content is most relevant to the output? Thus, an AI model is able to recognize references between words that are far apart in the text. To do this, attention takes each word in a sentence and relates it to every other word. So for the sentence in the example from Wikipedia, the model starts with “Spektrum” and compares it to all the other words in the entry, including “is,” “science,” and so on. This process allows a new mathematical representation of the input words to be found—and one that takes into account the content of the sentence. This attention step occurs both during training and in operation when users type something.

 

An illustration of the attention mechanism in an AI model. Credit: Manon Bischoff/Spektrum der Wissenschaft, styled by Scientific American

This is how language models such as ChatGPT or Luminous are able to process an input and generate a response from it. By determining what content to pay attention to, the program can calculate which words are most likely to follow the input.

SHIFTING THE FOCUS IN A TARGETED MANNER

This attention mechanism can be used to make language models more transparent. AtMan, named after the idea of “attention manipulation,” specifically manipulates how much attention an AI pays to certain input words. It can direct attention toward certain content and away from other content. This makes it possible to see which parts of the input were crucial for the output—without consuming too much computing power.

For instance, researchers can pass the following text to a language model: “Hello, my name is Lucas. I like soccer and math. I have been working on … for the past few years.” The model originally completed this sentence by filling in the blank with “my degree in computer science.” When the researchers told the model to increase its attention to “soccer,” the output changed to “the soccer field.” When they increased attention to “math,” they got “math and science.”

Thus, AtMan represents an important advance in the field of XAI and can bring us closer to understanding AI systems. But it still does not save language models from wild hallucination—and it cannot explain why ChatGPT believes that Florian Freistetter is editor in chief of Spektrum der Wissenschaft.

It can at least be used to control what content the AI does and doesn’t take into account, however. “This is important, for example, in algorithms that assess a person’s creditworthiness,” Schramowski explains. “If a program bases its results on sensitive data such as a person’s skin color, gender or origin, you can specifically turn off the focus on that.” AtMan can also raise questions if it reveals that an AI program’s output is minimally influenced by the content passed to it. In that case, the AI has obviously scooped all its generated content from the training data. “You should then check the results thoroughly,” Schramowski says.

AtMan can process not only text data in this way but any kind of data that a transformer model works with. For example, the algorithm can be combined with an AI that provides descriptions of images. This can be used to find out which areas of an image led to the description provided. In their publication, the researchers looked at a photograph of a panda—and found the AI based its description of “panda” mainly on the animal’s face.

“And it seems like AtMan can do even more,” says Deiseroth, who also helped develop the algorithm. “You could use the explanations from AtMan specifically to improve AI models.” Past work has already shown that smaller AI systems produce better results when trained to provide good reasoning. Now it remains to be investigated whether the same is true for AtMan and large transformer models. “But we still need to check that,” Deiseroth says.

This article originally appeared in Spektrum der Wissenschaft and was reproduced with permission.

Similar Posts