[해외DS] AI, 뇌 스캔 데이터 보고 사람이 보는 것 재현할 수 있어

오사카대 신경과학자 타카기·니시모토 교수, 스테이블 디퓨전으로 fMRI 영상에서 사람이 본 이미지 재구성해 AI, 놀랍도록 유사한 이미지 만들어냈다… 확산 모델이 주도하는 “AI 폭발” 캘리포니아대 암부이 싱, 뇌의 시각적인 처리 방식 정확하게 알아내진 못했다고 평가해

20
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Sebastian Kaulitzki/Alamy Stock Photo

기능적 자기공명영상(functional magnetic resonance imaging, fMRI)는 인간이 사고하는 방식 그 자체를 이해하려는 연구에 쓰이는 최신 도구입니다. fMRI 스캐너는 기계 안에 들어온 사람의 머리 안에 있는, ‘작동 중인’ 뇌를 촬영합니다. 이렇게 얻은 이미지는 정말 매혹적이고 다채롭죠.

신경과학자들은 fMRI 영상을 보고 그 사람이 어떤 뇌 영역을 사용하고 있는지 알 수 있지만, 그 사람이 실제로 무엇을 생각하고 보고 느끼는지는 알 수 없습니다. 이와 관련된 연구는 수십 년 동안 진행됐는데요, 이제는 인공 지능을 활용해 숫자를 처리하는 방식을 활용하면서 상당한 수준에 도달했다고 합니다.

AI가 fMRI 영상으로 이미지를 재구성하는 과정(왼쪽)/지원자들이 본 이미지와 AI가 재구성한 이미지(오른쪽)/사진=Stable Diffusion with Brain Activity

최근 일본 오사카 대학교의 신경과학자 타카기 유 교수와 니시모토 신지 교수가 fMRI 데이터를 고급 이미지 생성 AI와 결합, 연구 참가자가 그 fMRI 영상을 촬영할 때 실제로 봤던 것과 묘하게 닮은 이미지를 만들어내는 데 성공했습니다. 두 교수는 웹 사이트 ‘Stable Diffusion with Brain Activity’에 참가자가 본 원본 이미지와 AI가 재창조한 이미지를 공개했습니다.

타카기 교수는 “우리는 (fMRI 및 AI) 기술을 사용하여 잠재적인 뇌-기계 인터페이스를 구축할 수 있습니다.”라고 말했습니다. 이러한 인터페이스는 향후 겉으로는 반응이 없는 것처럼 보이지만 여전히 의식을 지닌 환자처럼 다른 이들과 교류할 수 없는 사람들에게 도움을 줄지도 모릅니다. 이 연구는 최근 ‘2023 컴퓨터 비전 및 패턴 인식에 관한 컨퍼런스’에서 발표하는 것을 승인받았습니다.

짐작하셨겠지만 이 연구의 파장은 어마어마했습니다. 연구의 프리프린트(아직 동료 검토(peer review) 혹은 출판이 되지 않은 연구 논문을 의미합니다)는 지난 2022년 12월에 올라왔는데요, 몇몇 논평가들은 온라인에서 이 기술을 “독심술”에 비유하기도 했습니다. 그렇지만 전문가들에 따르면 이러한 평가는 지나치게 과도합니다.

이번 연구에 참여하지 않은 오스틴 텍사스 대학교 소속 전산 신경과학자 셰일린 제인(Shailee Jain)은 “우리가 마음을 읽는다고 생각하지 않습니다.”라며 “저는 현재 이 기술이 실제로 환자에게 도움이 되거나 나쁜 일에 악용될 수 있는 수준까지 발전하지 않았다고 생각합니다. 그렇지만 점점 나아지고 있는 건 맞습니다.”라고 말했습니다.

한편 사람들이 보는 이미지를 재구성하기 위해 뇌의 활동 데이터와 AI를 결합한 최초의 연구는 이미 지난 2019년에 진행됐습니다. 당시 일본 교토 대학교 및 국제전기통신기초기술연구소(国際電気通信基礎技術研究所, ATR) 소속 연구원들은 머신 러닝의 한 분야인 ‘심층 신경망’ 기술을 활용해 이번 연구처럼 fMRI 스캔 영상에서 이미지를 재구성했습니다. 결과는 사진이라기보다는 추상화에 가까웠지만, 해당 이미지를 본 인간 심사위원은 그에 맞는 원본 사진을 정확하게 골라낼 수 있었습니다.

이후 신경과학자들은 더 새롭고, 더 발전한 AI 이미지 생성기로 이 작업을 계속했습니다. 이번에 소개한 연구에서는 런던에 기반을 둔 스타트업 스타빌리티 AI(Stability AI)의 스테이블 디퓨전(Stable Diffusion)이 활용됐는데, 이 모델은 DALL-E 2와 같은 이미지 생성기처럼 ‘확산 모델(diffusion model)’로 분류됩니다. 타카기 교수는 이 확산 모델을 “AI 폭발의 주인공”으로 지목했습니다.

확산 모델은 훈련 이미지에 노이즈를 추가하면서 학습을 진행합니다. 노이즈는 TV의 잡음처럼 이미지를 왜곡하는데, 실제 잡음과 달리 모델이 학습하는, 예측 가능한 방식으로 발생합니다. 그 결과 모델은 “잡음”만을 가지고도 이미지를 구축할 수 있게 됩니다.

2022년 8월 공개된 스테이블 디퓨전은 수십억 장의 사진과 캡션을 학습했습니다. 그림의 패턴을 인식하는 방법을 배웠으므로 명령에 맞춰 시각적인 특징을 혼합하고 일치시켜 완전히 새로운 이미지를 만들어낼 수 있죠. 역시 이번 연구에 참여하지 않은 네덜란드 암스테르담 대학교의 신경과학자 아이리스 그로엔(Iris Groen) 교수에 따르면 “(스테이블 디퓨전 같은 확산 모델에) 그냥 ‘스케이트보드를 탄 개’라고 말하기만 하면 스케이트보드를 탄 개의 이미지가 생성될 것”입니다. 또한 그녀는 이 연구의 연구원들도 “그냥 그 모델을 실행한 뒤 ‘좋아, 이제 스마트한 방식으로 뇌 스캔에 연결할 수 있을까?’라고 말하기만 했”다고 덧붙였습니다.

한편 이전에 진행된 연구에서는 지원자 여덟 명이 1년 동안 정기적으로 fMRI 스캐너에 들어가 총 10,000개의 이미지를 볼 때 촬영한 결과물을 모아 인간 두뇌(적어도 이 여덟 명의 두뇌)의 시각 중추가 각각의 이미지를 볼 때 어떻게 반응하는지를 보여주는, 대규모 fMRI 데이터베이스를 구축했습니다. 이번 연구 역시 이 데이터베이스에서 지원자 네 명의 데이터를 뽑아 분석에 활용했죠.

AI 모델은 이미지를 재구성하기 위해 이미지의 하위 수준에 해당하는 ‘시각적 속성’과 상위 수준에 해당하는 ‘의미(개념 정보)’라는 속성, 즉 두 가지 다른 유형의 정보로 작업해야 합니다. ‘파란색 배경에 있는 각지고 길쭉한 물체’가 아니라 그 이미지를 보고 ‘하늘을 나는 비행기’라는 ‘의미’를 파악해야 한다는 것입니다. 인간의 뇌도 이 두 종류의 정보를 함께 처리하지만, 각각의 정보는 별도의 영역에서 처리됩니다. 연구자들은 뇌 스캔과 AI를 연동하기 위해 선형 모델을 활용해 하위 수준의 시각 정보를 처리하는 각 부분을 연결했습니다. 상위 수준의 개념 정보를 처리하는 부분에서도 같은 작업을 수행했죠. 그로엔 교수는 “기본적으로 이들을 서로 매핑한 결과 이러한 이미지를 생성할 수 있었습니다.”라고 말했습니다.

이 단계를 거치면 AI 모델은 사람의 두뇌가 활성화됐을 때 관찰되는 어떤 ‘미묘한 패턴’이 이미지의 어떤 특징과 연결되는지를 학습할 수 있게 됩니다. 연구자들은 일단 모델이 이러한 패턴을 인식할 수 있게 됐을 때 (그 모델이) 전에 본 적이 없는 fMRI 데이터를 모델에게 제시하고 그에 따라 이미지를 생성하는 작업을 수행했습니다. 마지막으로 연구자들은 생성된 이미지를 원본과 비교하는 과정을 통해 모델의 수행 능력을 평가했습니다.

두 교수가 만든 웹 사이트에서 볼 수 있는 많은 이미지 쌍은 놀라울 정도로 비슷해 보입니다. 연구에 참여하지 않은 캘리포니아 대학교 산타바바라 캠퍼스의 컴퓨터 과학자 암부이 싱(Ambuj Singh)은 “저는 그것이 작동한다는 것 자체가 흥미롭다고 생각합니다.”라고 말했지만 그렇다고 해서 과학자들이 뇌가 시각적인 세계를 처리하는 방식을 정확하게 알아낸 건 아니라고 선을 그었습니다.

스테이블 디퓨전은 (인간의 뇌와) 유사한 결과를 만들어낼 수 있지만, 그렇다고 해서 항상 뇌가 수행하는 것과 동일한 방식으로 이미지를 처리하지는 않습니다. 타카기 교수와 니시모토 교수는 이러한 모델과 뇌를 비교해 (모델과 뇌라는) 두 가지 복잡한 시스템의 내부 작동 방식을 규명할 수 있기를 바란다고 밝혔습니다.

언뜻 생각하면 이 기술은 정말 환상적입니다. 하지만 많은 한계가 있는데요, 우선 각 모델은 단 한 사람의 데이터를 학습하고, 그것을 사용해야 합니다. 연구에 참여하지 않은 네덜란드 라드바우드 대학교의 전산 신경과학자 린 르(Lynn Le)는 “모든 사람의 뇌는 천지차이입니다.”라고 말했습니다. AI가 뇌 스캔에서 이미지를 재구성하도록 하려면 ‘사용자 지정 모델’을 만들어야 합니다. 즉 과학자는 이를 위해 (각자의) 뇌에서 고품질 fMRI 데이터를 수집해야 하죠. 모든 이들이 밀실공포증을 유발할지도 모르는 MRI 튜브 안에 들어가 완벽하게 가만히 누운 상태에서 수천 개의 이미지에 집중하겠다고 동의하지 않는 이상, 기존의 AI 모델은 뇌의 활동을 해독할 만큼 충분한 데이터를 가지고 있지 않습니다.

또한 텍사스대의 제인 연구원은 설령 이러한 데이터가 있다 할지라도 AI 모델은 ‘명시적으로 훈련된’ 작업에만 능숙하다고 말했습니다. 이미지를 인식하는 방식을 훈련받은 모델은 (인간이) 생각하고 있는 개념을 해독하기에 적합하지 않습니다. 한편 제인을 비롯한 일부 연구진은 이를 위한 다른 모델을 구축하고 있습니다.

이 기술이 참가자가 눈으로 본 것만이 아니라 상상하기만 한 이미지를 재구성할 수도 있을지는 여전히 불확실합니다. 만약 이것이 가능하다면 이 기술은 뇌-컴퓨터 인터페이스를 통해 대화하거나 보디랭귀지를 쓸 수 없는 사람들이 세상과 소통할 수 있도록 돕는 등 많은 분야에 응용될 수 있을 것입니다.

제인 연구원은 “(인간 두뇌의) 해독 기술을 구축한다면 신경과학적으로 아주 많은 것을 얻을 수 있습니다.”라고 주장했습니다. 하지만 잠재적인 이점에는 잠재적인 윤리적 문제가 따라오죠. 이러한 기술이 발전하면서 (윤리적) 문제를 해결하는 것은 더욱 중요해질 것입니다. 제인은 기술의 현재 한계가 “디코딩(decoding)이 유발하는 잠재적인 피해를 가볍게 감수할 정도의 변명거리가 아니다”라며 “이제는 개인 정보 보호와 이 기술이 부정적으로 사용될 가능성을 생각할 때입니다. 아직은 우리가 그 정도의 단계에 도달하지 않았지만, (그런 생각은) 지금 해야 합니다.”라고 호소했습니다.


Functional magnetic resonance imaging, or fMRI, is one of the most advanced tools for understanding how we think. As a person in an fMRI scanner completes various mental tasks, the machine produces mesmerizing and colorful images of their brain in action.

Looking at someone’s brain activity this way can tell neuroscientists which brain areas a person is using but not what that individual is thinking, seeing or feeling. Researchers have been trying to crack that code for decades—and now, using artificial intelligence to crunch the numbers, they’ve been making serious progress. Two scientists in Japan recently combined fMRI data with advanced image-generating AI to translate study participants’ brain activity back into pictures that uncannily resembled the ones they viewed during the scans. The original and re-created images can be seen on the researchers’ website.

“We can use these kinds of techniques to build potential brain-machine interfaces,” says Yu Takagi, a neuroscientist at Osaka University in Japan and one of the study’s authors. Such future interfaces could one day help people who currently cannot communicate, such as individuals who outwardly appear unresponsive but may still be conscious. The study was recently accepted to be presented at the 2023 Conference on Computer Vision and Pattern Recognition.

The study has made waves online since it was posted as a preprint (meaning it has not yet been peer-reviewed or published) in December 2022. Online commentators have even compared the technology to “mind reading.” But that description overstates what this technology is capable of, experts say.

“I don’t think we’re mind reading,” says Shailee Jain, a computational neuroscientist at the University of Texas at Austin, who was not involved in the new study. “I don’t think the technology is anywhere near to actually being useful for patients—or to being used for bad things—at the moment. But we are getting better, day by day.”

The new study is far from the first that has used AI on brain activity to reconstruct images viewed by people. In a 2019 experiment, researchers in Kyoto, Japan, used a type of machine learning called a deep neural network to reconstruct images from fMRI scans. The results looked more like abstract paintings than photographs, but human judges could still accurately match the AI-made images to the original pictures.

Neuroscientists have since continued this work with newer and better AI image generators. In the recent study, the researchers used Stable Diffusion, a so-called diffusion model from London-based start-up Stability AI. Diffusion models—a category that also includes image generators such as DALL-E 2—are “the main character of the AI explosion,” Takagi says. These models learn by adding noise to their training images. Like TV static, the noise distorts the images—but in predictable ways that the model begins to learn. Eventually the model can build images from the “static” alone.

Released to the public in August 2022, Stable Diffusion has been trained on billions of photographs and their captions. It has learned to recognize patterns in pictures, so it can mix and match visual features on command to generate entirely new images. “You just tell it, right, ‘A dog on a skateboard,’ and then it’ll generate a dog on a skateboard,” says Iris Groen, a neuroscientist at the University of Amsterdam, who was not involved in the new study. The researchers “just took that model, and then they said, ‘Okay, can we now link it up in a smart way to the brain scans?’”

The brain scans used in the new study come from a research database containing the results of an earlier study in which eight participants agreed to regularly lay in an fMRI scanner and view 10,000 images over the course of a year. The result was a huge repository of fMRI data that shows how the vision centers of the human brain (or at least the brains of these eight human participants) respond to seeing each of the images. In the recent study, the researchers used data from four of the original participants.

To generate the reconstructed images, the AI model needs to work with two different types of information: the lower-level visual properties of the image and its higher-level meaning. For example, it’s not just an angular, elongated object against a blue background—it’s an airplane in the sky. The brain also works with these two kinds of information and processes them in different regions. To link the brain scans and the AI together, the researchers used linear models to pair up the parts of each that deal with lower-level visual information. They also did the same with the parts that handle high-level conceptual information.

“By basically mapping those to each other, they were able to generate these images,” Groen says. The AI model could then learn which subtle patterns in a person’s brain activation correspond to which features of the images. Once the model was able to recognize these patterns, the researchers fed it fMRI data that it had never seen before and tasked it with generating the image to go along with it. Finally, the researchers could compare the generated image to the original to see how well the model performed.

Many of the image pairs the authors showcase in the study look strikingly similar. “What I find exciting about it is that it works,” says Ambuj Singh, a computer scientist at the University of California, Santa Barbara, who was not involved in the study. Still, that doesn’t mean scientists have figured out exactly how the brain processes the visual world, Singh says. The Stable Diffusion model doesn’t necessarily process images in the same way the brain does, even if it’s capable of generating similar results. The authors hope that comparing these models and the brain can shed light on the inner workings of both complex systems.

As fantastical as this technology may sound, it has plenty of limitations. Each model has to be trained on, and use, the data of just one person. “Everybody’s brain is really different,” says Lynn Le, a computational neuroscientist at Radboud University in the Netherlands, who was not involved in the research. If you wanted to have AI reconstruct images from your brain scans, you would have to train a custom model—and for that, scientists would need troves of high-quality fMRI data from your brain. Unless you consent to laying perfectly still and concentrating on thousands of images inside a clanging, claustrophobic MRI tube, no existing AI model would have enough data to start decoding your brain activity.

Even with those data, AI models are only good at tasks for which they’ve been explicitly trained, Jain explains. A model trained on how you perceive images won’t work for trying to decode what concepts you’re thinking about—though some research teams, including Jain’s, are building other models for that.

It’s still unclear if this technology would work to reconstruct images that participants have only imagined, not viewed with their eyes. That ability would be necessary for many applications of the technology, such as using brain-computer interfaces to help those who cannot speak or gesture to communicate with the world.

“There’s a lot to be gained, neuroscientifically, from building decoding technology,” Jain says. But the potential benefits come with potential ethical quandaries, and addressing them will become still more important as these techniques improve. The technology’s current limitations are “not a good enough excuse to take potential harms of decoding lightly,” she says. “I think the time to think about privacy and negative uses of this technology is now, even though we may not be at the stage where that could happen.”

Similar Posts