[해외DS] 과학자들이 AI를 사용해 동물과 대화하는 방법

디지털 생체 음향학 신간 낸 Karen Bakker와의 인터뷰 기술은 다른 생물종의 의사소통 연구에 어떤 영향을 줬는가? Bakker, 인공 지능과 결합된 디지털 생체 음향학은 행성 단위의 보청기와 같다

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

알고리즘은 이집트 과일 박쥐의 복잡한 의사 소통 방식을 밝혀냈습니다. 오디오와 비디오 녹음 분석 결과, 박쥐는 음식을 가지고 싸우고, 성별을 나누며 개별적인 ‘서명 호출(signature calls)’을 이름 대신 쓴다는 사실이 확인됐습니다./사진=Amir Cohen/Reuters/Alamy Stock Photo

1970년대, 전 세계는 코코라는 이름을 가진 어린 고릴라에 주목했습니다. 코코는 무려 인간의 수화를 쓸 수 있었기 때문입니다. 하지만 회의론자들은 코코를 비롯한 ‘말하는 방법’을 ‘배운’ 동물들(침팬지나 돌고래도 여기에 포함됩니다.)이 자기가 무엇을 말하는지 진정으로 이해할 수 없었다고 주장합니다. 회의론자들은 또한 다른 종에게 인간의 언어, 즉 물리적으로는 존재하지 않는 것을 상징하는 언어를 가르치려는 시도는 무의미하다는 견해를 가지고 있습니다.

브리티시 컬럼비아대 교수이자 하버드 래드클리프 고등 연구소 소속 펠로우인 Karen Bakker는 “동물이 ‘상징적 의사소통’을 할 수 있는지 확인하려고 애쓰는 연구자들도 있고, ‘그건(상징적 의사소통을 할 수 있는지 확인하려는 연구) 의인화에 불과하니, 동물들의 ‘인간이 아닌’ 의사소통 그 자체를 이해해야 한다고 이야기하는 연구자들도 있습니다”라고 말했습니다.

최근 과학자들은 고급 센서와 인공 지능 기술을 이용해 다양한 생물종(식물도 포함됩니다.)들이 서로 정보를 공유할 때 쓰는 ‘고유한’ 의사 소통 체계를 관찰하고, 해독하고 있습니다. 이러한 연구 분야를 ‘디지털 생체 음향학’이라고 합니다. Bakker의 신간 ‘The Sounds of Life: How Digital Technology Is Bringing Us Closer to the Worlds of Animals and Plants’의 주제이기도 하죠.

Scientific American은 Bakker와의 인터뷰를 통해 기술은 인간이 박쥐, 꿀벌 등 다른 종과 의사소통을 하는 데 어떻게 도움을 주는지 알아보았습니다. 또 이런 ‘다른 생물종과의 대화’가 어떻게 해서 우리로 하여금 그들과의 관계를 다시 생각하게 만드는지에 대한 Bakker의 견해도 들어보았습니다.

[편집된 인터뷰 내용이 이어집니다.]

인간이 동물과의 의사소통을 시도한 역사를 간단하게 말씀해 주시겠습니까?

20세기 중반에는 코코와 같은 영장류 ‘비인간’에게 인간의 언어를 가르치려는 수많은 시도가 있었습니다. 그러한 노력에는 다소 논란의 여지가 있었는데, 접근 방식이 지나치게 인간 중심적이라는 점 때문입니다. 물론 당시에는 소수만의 의견이었을 수도 있지만, 지금은 이러한 견해가 널리 퍼져 있습니다. 그때 우리는 인간이 아닌 존재를 인간처럼 말하도록 가르쳐서 인간이 아닌 존재의 지능을 평가하겠다는 목표를 가지고 있었습니다. 그들의 언어, 그들 자신만의 구체적인 방식, 그들 자신의 세계관을 이용해 복잡한 의사소통을 하는 ‘그들의 능력’을 생각해야 했음에도 말입니다.

저는 이 책(위에서 언급한 Bakker의 신간을 뜻합니다.)에서 움벨트(umwelt)라는 용어를 사용했습는데, 움벨트는 유기체의 ‘살아있는 경험’에 대한 개념입니다. 꿀벌을 예로 들어 보겠습니다. 꿀벌의 움벨트에 주목한다는 것은 꿀벌이 ‘인간의 언어’를 말할 수 있을 거라 기대하지 않고, 진동과 위치가 중심이 된 꿀벌의 매력적인 언어 그 자체에 관심을 두는 것입니다. 참고로 꿀벌의 언어는 햇빛의 편광처럼 몸으로는 전달조차 못 하는 뉘앙스에 예민하죠.

아무튼 오늘날의 과학계는 바로 여기에 집중합니다. 디지털 생체 음향학은 기하급수적으로 발전하면서 ‘생명의 나무’를 넘나드는 의사소통과 관련된 흥미로운 요소를 찾아내고 있는데, 이제는 동물에게 다가가고 있습니다. 아, 물론 “인간처럼 말할 수 있나요?” 따위의 질문이 아닌, “복잡한 정보를 서로서로 전달할 수 있나요? 어떻게 그렇게 하고 있죠? 그들에게는 무엇이 중요한가요?” 같은 질문을 던집니다. 그리고 저는 이러한 접근 방식이 좀더 생물 중심적, 적어도 덜 인간 중심적이라고 생각합니다.

좀더 광범위하게 보면 자연의 소리에 귀를 기울이는 것, 즉 ‘딥 리스닝(deep listening)’이 오랫동안 이어져 왔음을 인정하는 것 역시 중요할 겁니다. 딥 리스닝은 매개되지 않은 모습으로 여전히 이루어지는 고대 예술인데, 원주민들이 오랫동안 간직해 온 전통 중에는 ‘인간이 아닌’ 소리에 깊게 빠져들어 ‘딥 리스닝’을 하는 것이 있습니다.

따라서 저는 ‘인간이 아닌 소리’의 드넓은 신세계를 열고, 그 소리를 인공 지능으로 해독하는 ‘디지털 리스닝(digital listening)’을 이 딥 리스닝과 결합한다면 두 가지 중요한 발견을 할 수 있다고 생각합니다. 하나는 비인간의 언어, 즉 우리가 파헤칠 수 있는 굉장히 논쟁적인 진술입니다. 그리고 다른 하나는, 우리가 ‘생물종 간의 의사소통’이 가능해지는 시대를 눈앞에 두고 있다는 것입니다(적어도 저는 그렇게 믿고 있습니다.).

어떤 기술 덕분에 이러한 혁신이 가능해진 건가요?

디지털 생체음향학은 소형 마이크 같이 굉장히 작고 휴대할 수 있으며 가벼운 디지털 레코더에 의존합니다. 과학자들은 소형 마이크를 북극에서 아마존에 이르기까지 모든 곳에 설치하고 있습니다. 거북이나 고래한테 붙일 수도 있고, 깊은 바다에 심을 수도, 가장 높은 산꼭대기에 심을 수도, 새에게 매달 수도 있죠. 이런 소형 마이크는 과학자들이 쉽게 접근할 수 없는 외딴 곳, 빛조차 없는 곳에서도 계속해서 소리를 녹음할 수 있습니다. 인간 관찰자를 생태계에 들여보내는 것과 달리 어떠한 ‘중단’도 발생하지 않는다는 장점도 있습니다.

소형 마이크는 그야말로 ‘데이터 홍수’를 일으키는데, 바로 여기에서 인공 지능이 실력을 발휘합니다. 구글 번역기 같은 툴은 효과를 좀더 높이기 위해 자연어 처리 알고리즘을 이용하는데, 이 알고리즘이 데이터 홍수 속에서 비인간 커뮤니케이션의 패턴을 찾아낼 수도 있기 때문입니다.

이러한 커뮤니케이션 패턴의 예는 무엇입니까?

저는 박쥐 챕터에서 Yossi Yovel의 연구를 다뤘습니다. Yovel은 20여 마리의 이집트 과일 박쥐를 두 달 반 동안 모니터링하고 박쥐들의 발성을 녹음했습니다. 이후 연구팀과 함께 음성 인식 프로그램을 이용해 15,000여 개의 소리를 분석했는데, 알고리즘은 두 마리의 박쥐가 음식을 두고 싸우는 것 같은, 비디오로 촬영된 특정 사회적 상호작용과 특정 소리를 연결지었습니다. 그 결과 연구원들은 거의 모든 박쥐 소리를 분류할 수 있었죠. 바로 이런 방식으로, Yovel이나 Gerry Carter 같은 다른 연구원들은 박쥐가 우리 생각보다 훨씬 복잡한 언어를 가지고 있다는 결론을 내릴 수 있었습니다.

박쥐는 음식을 두고 싸우고, 서로 소통할 때 실제로 성별을 구분할 뿐더러 개별적인 이름, 혹은 ‘서명 호출’도 가지고 있습니다. 어미 박쥐는 새끼에게 ‘어미’를 뜻하는 말을 합니다. 하지만 인간과 다른 방식인데, 인간 어머니는 아기와 이야기할 때 목소리의 음조를 높이는 경향을 보이지만 어미 박쥐는 반대로 음조를 낮춥니다. 그 결과 새끼는 자라면서 특정한 단어나 지시 신호를 ‘말하는’ 방법을 배울 수 있는, 옹알이 반응을 하게 되고 더 나아가 ‘발성 학습’에 참여하게 됩니다.

이는 딥 러닝이 어떤 방식으로 (이) 계측기나 모든 센서와 마이크에서 이러한 패턴을 도출할 수 있는지를 보여주는 좋은 예시입니다. 박쥐 통신은 대부분 우리가 들을 수 있는 범위보다 높은, 초음파 영역에서 이루어질뿐더러 박쥐가 말하는 속도는 우리보다 훨씬 빠릅니다. 따라서 우리는 음성 데이터의 속도를 늦추고 주파수를 줄여야 하지만, 컴퓨터는 그렇지 않습니다.

게다가 컴퓨터는 박쥐에게 말을 할 수도 있습니다. (소프트웨어는) 특정한 패턴을 만들어낸 뒤 이를 이용해 박쥐 군집이나 벌집과 통신합니다. 바로 이것이 연구원들이 요즘 하고 있는 일입니다.

연구원들은 꿀벌과 어떻게 대화하고 있습니까?

꿀벌 연구는 매력적입니다. 연구원 Tim Landgraf는 앞에서 언급한 바와 같이 진동 그리고 위치에 대한 꿀벌 통신을 연구합니다. 꿀벌이 서로 ‘대화’할 땐 소리뿐 아니라 몸의 움직임이 중요한데, 컴퓨터, 그 중에서도 딥 러닝 알고리즘은 이제 자연어 처리와 결합된 컴퓨터 비전을 쓸 수 있기 때문에 이러한 몸의 움직임도 만들어낼 수 있습니다. 이 알고리즘은 현재 꿀벌 하나하나를 실제로 추적할 수 있는 수준까지 도달했고, 꿀벌 하나의 의사 소통이 다른 꿀벌에 미치는 영향을 결정할 수도 있습니다. 바로 이 덕분에 꿀벌 언어 해독이 가능해진 겁니다.

연구원들은 특정한 신호의 존재를 포착했는데, 이후 (이 신호에) 재미있는 이름을 붙였습니다. 꿀벌은 무언가를 부는 소리, 즉 꽥꽥거리는 소리를 냅니다. ‘쉿’ 혹은 ‘정지’를 뜻하는 신호도 있고, 엄청난 ‘위협’을 뜻하는 신호도 있습니다. 또 이들은 (군집과 관련해서) 파이핑을 하거나 구걸하고 무언가를 흔드는 신호도 가지고 있는데, 이런 모든 신호들은 집단 혹은 개별적인 행동과 관련돼 있습니다.

Landgraf는 이후 이 정보를 ‘RoboBee’라는 이름을 지어 준 로봇에 인코딩했는데, 시제품 일고여덟 개를 만들고 난 뒤 결국 벌통에 들어갈 수 있는 ‘꿀벌’을 만들어냈습니다. 이 꿀벌은 기본적으로 꿀벌이 복종하게 될 명령을 내보냅니다. 즉 Landgraf의 꿀벌 로봇은 다른 꿀벌한테 멈추라고 이야기할 수 있고, 이걸 들은 꿀벌은 실제로 그 명령에 따른다는 겁니다. 이 로봇은 또 좀더 복잡한, ‘와글 댄스(waggle dance)’라는 이름으로 유명한 행동도 할 수 있습니다. 와글 댄스는 꿀벌이 꿀 공급원의 위치를 다른 꿀벌에게 전달할 때 쓰는 특정한 의사소통 패턴입니다. 와글 댄스 실험은 굉장히 쉬운데, 벌통 내의 꿀벌이 가본 적 없는 곳에 꿀 공급원을 두고 로봇한테 꿀벌에게 그 위치를 알려 주라는 명령을 내린 뒤 꿀벌이 성공적으로 비행하는지를 확인하면 되기 때문입니다. 그리고 실제로 이 실험은 성공했습니다. 한 번뿐이었고, 과학자들이 이게 왜 효과가 있었는지, 어떻게 하면 같은 결과를 만들어낼 수 있을지 확신하지 못하고 있긴 합니다만 여전히 놀라운 결과입니다. [편집자 주(2023년 2월 7일): 이 단락은 RoboBee 실험이 한 번만 성공했음을 명확히 하기 위해 게시 후 재편집되었습니다.]

이러한 결과는 많은 철학적, 윤리적 질문을 제기합니다. 이 시스템은 꿀벌을 보호하기 위해 이용될 수 있는데, 예를 들자면 꿀벌에게 살충제 농도가 높은 오염된 곳이 아닌 안전한 곳에 있는 꿀 공급원으로 날아가라는 지시를 할 수 있습니다. 반면 이 시스템은 우리가 완전히 길들이지 못한 이전의 야생 종을 길들이거나 다른 야생 종의 행동을 통제하려는 시도를 할 때 이용될 수도 있습니다. 아울러, 인간이 아닌 존재가 얼마나 정교한지와 이들의 의사소통이 보이는 복잡성을 보면 철학적인 질문, 즉 ‘인간 능력’으로서의 언어의 고유성을 생각해 보게 되기도 합니다.

이 기술은 자연에 대한 우리의 이해에 어떤 영향을 줍니까?

디지털 생체 음향학의 발명은 현미경의 발명과 같습니다. 네덜란드 과학자 Antonie van Leeuwenhoek는 현미경을 들여다보게 되면서 미생물의 세계를 발견했고, 이는 수많은 ‘미래의 돌파구’를 위한 토대가 되었습니다. 현미경 덕분에 인간은 인간의 시각과 상상력으로 새로운 세계를 볼 수 있게 됐습니다. 다시 말해, 인공 지능과 결합된 디지털 생체 음향학은 ‘보철로 강화된’ 귀와 상상력으로 새로운 소리를 들을 수 있게 해 주는, 행성 단위의 보청기라는 것입니다. 덕분에 우리는 비인간이 만들어내는 멋진 소리뿐 아니라 소위 말하는 인간과 비인간의 구분, 다른 종과의 관계에 대한 근본적인 질문에 서서히 마음을 열고 있습니다. 또 보존과 지구와의 관계를 생각하는 새로운 방법에도 다가설 수 있게 됐죠. 이런 영향력은 꽤 큽니다.


In the 1970s a young gorilla known as Koko drew worldwide attention with her ability to use human sign language. But skeptics maintain that Koko and other animals that “learned” to speak (including chimpanzees and dolphins) could not truly understand what they were “saying”—and that trying to make other species use human language, in which symbols represent things that may not be physically present, is futile.

“There’s one set of researchers that’s keen on finding out whether animals can engage in symbolic communication and another set that says, ‘That is anthropomorphizing. We need to … understand nonhuman communication on its own terms,’” says Karen Bakker, a professor at the University of British Columbia and a fellow at the Harvard Radcliffe Institute for Advanced Study. Now scientists are using advanced sensors and artificial intelligence technology to observe and decode how a broad range of species, including plants, already share information with their own communication methods. This field of “digital bioacoustics” is the subject of Bakker’s new book The Sounds of Life: How Digital Technology Is Bringing Us Closer to the Worlds of Animals and Plants.

Scientific American spoke with Bakker about how technology can help humans communicate with creatures such as bats and honeybees—and how these conversations are forcing us to rethink our relationship with other species.

[An edited transcript of the interview follows.]

Can you give us a brief history of humans attempting to communicate with animals?

There were numerous attempts in the mid-20th century to try to teach human language to nonhumans, primates such as Koko. And those efforts were somewhat controversial. Looking back, one view we have now (that may not have been so prevalent then) is that we were too anthropocentric in our approaches. The desire then was to assess nonhuman intelligence by teaching nonhumans to speak like we do—when in fact we should have been thinking about their abilities to engage in complex communication on their own terms, in their own embodied way, in their own worldview. One of the terms used in the book is the notion of umwelt, which is this notion of the lived experience of organisms. If we are attentive to the umwelt of another organism, we wouldn’t expect a honeybee to speak human language, but we would become very interested in the fascinating language of honeybees, which is vibrational and positional. It’s sensitive to nuances such as the polarization of sunlight that we can’t even begin to convey with our bodies. And that is where the science is today. The field of digital bioacoustics—which is accelerating exponentially and unveiling fascinating findings about communication across the tree of life—is now approaching these animals and not asking, “Can they speak like humans?” but “Can they communicate complex information to one another? How are they doing so? What is significant to them?” And I would say that’s a more biocentric approach or at the very least it’s less anthropocentric.

Taking a bigger view, I think it’s also important to acknowledge that listening to nature, “deep listening,” has a long and venerable tradition. It’s an ancient art that is still practiced in an unmediated form. There are long-standing Indigenous traditions of deep listening that are deeply attuned to nonhuman sounds. So if we combine digital listening—which is opening up vast new worlds of nonhuman sound and decoding that sound with artificial intelligence—with deep listening, I believe that we are on the brink of two important discoveries. The first is language in nonhumans. And that’s a very controversial statement, which we can dig into. And the second is: I believe we’re at the brink of interspecies communication.

What sort of technology is enabling these breakthroughs?

Digital bioacoustics relies on very small, portable, lightweight digital recorders, which are like miniature microphones that scientists are installing everywhere from the Arctic to the Amazon. You can put these microphones on the backs of turtles or whales. You can put them deep in the ocean, [put them] on the highest mountaintop, attach them to birds. And they can record sound continuously, 24/7, in remote places where scientists cannot easily reach, even in the dark and without the disruption that comes from introducing human observers in an ecosystem.

That instrumentation creates a data deluge, and that is where artificial intelligence comes in—because the same natural language processing algorithms that we are using to such great effect in tools such as Google Translate can also be used to detect patterns in nonhuman communication.

What’s an example of these communication patterns?

In the bat chapter where I discuss the research of Yossi Yovel, there’s a particular study in which he monitored [nearly two] dozen Egyptian fruit bats for two and a half months and recorded … [their] vocalizations. His team then adapted a voice recognition program to analyze [15,000 of] the sounds, and the algorithm correlated specific sounds with specific social interactions captured via videos—such as when two bats fought over food. Using this, the researchers were able to classify the majority of bats’ sounds. That is how Yovel and other researchers such as Gerry Carter have been able to determine that bats have much more complex language than we previously understood. Bats argue over food; they actually distinguish between genders when they communicate with one another; they have individual names, or “signature calls.” Mother bats speak to their babies in an equivalent of “motherese.” But whereas human mothers raise the pitch of their voices when talking to babies, mother bats lower the pitch—which elicits a babble response in the babies that learn to “speak” specific words or referential signals as they grow up. So bats engage in vocal learning.

That’s a great example of how deep learning is able to derive these patterns from [this] instrumentation, all of these sensors and microphones, and reveal to us something that we could not access with the naked human ear. Because most of bat communication is in the ultrasonic, above our hearing range, and because bats speak much faster than we do, we have to slow it down to listen to it, as well as reduce the frequency. So we cannot listen like a bat, but our computers can. And the next insight is, of course, that our computers can also speak back to the bat. [The software produces] specific patterns and uses those to communicate back to the bat colony or to the beehive, and that is what researchers are now doing.

How are researchers talking to bees?

The honeybee research is fascinating. A [researcher] named Tim Landgraf studies bee communication, which, as I mentioned earlier, is vibrational and positional. When honeybees “speak” to one another, it’s their body movements, as well as the sounds, that matter. Now computers, and particularly deep-learning algorithms, are able to follow this because you can use computer vision, combined with natural language processing. They have now perfected these algorithms to the point where they’re actually able to track individual bees, and they’re able to determine what impact the communication of an individual might have on another bee. From that emerges the ability to decode honeybee language. We found that they have specific signals. [Researchers have given these signals] funny names. [Bees] toot; they quack. There’s a “hush” or “stop” signal, a whooping “danger” signal. They’ve got piping [signals related to swarming] and begging and shaking signals, and those all direct collective and individual behavior.

The next step for Landgraf was to encode this information into a robot that he called RoboBee. Eventually, after seven or eight prototypes, Landgraf came up with a “bee” that could enter the hive, and it would essentially emit commands that the honeybees would obey. So Landgraf’s honeybee robot can tell the other bees to stop, and they do. It can also do something more complicated, which is the very famous waggle dance—it’s the communication pattern they use to convey the location of a nectar source to other honeybees. This is a very easy experiment to run, in a way, because you put a nectar source in a place where no honeybees from the hive have visited, you then instruct the robot to tell the honeybees where the nectar source is, and then you check whether the bees fly there successfully. And indeed they do. This result only happened once, and scientists are not sure why it worked or how to replicate it. But it is still an astounding result. [Editor’s Note (2/7/23): This paragraph was edited after posting to clarify that the described result of the RoboBee experiment only happened once.]

This raises a lot of philosophical and ethical questions. You could imagine such a system being used to protect honeybees—you could tell honeybees to fly to safe nectar sources and not polluted ones that had, let’s say, high levels of pesticides. You could also imagine this could be a tool to domesticate a previously wild species that we have only imperfectly domesticated or to attempt to control the behavior of other wild species. And the insights about the level of sophistication and the degree of complex communication in nonhumans raises some very important philosophical questions about the uniqueness of language as a human capacity.

What impact is this technology having on our understanding of the natural world?

The invention of digital bioacoustics is analogous to the invention of the microscope. When [Dutch scientist Antonie] van Leeuwenhoek started looking through his microscopes, he discovered the microbial world…, and that laid the foundation for countless future breakthroughs. So the microscope enabled humans to see anew with both our eyes and our imaginations. The analogy here is that digital bioacoustics, combined with artificial intelligence, is like a planetary-scale hearing aid that enables us to listen anew with both our prosthetically enhanced ears and our imagination. This is slowly opening our minds not only to the wonderful sounds that nonhumans make but to a fundamental set of questions about the so-called divide between humans and nonhumans, our relationship to other species. And [it’s] also opening up new ways to think about conservation and our relationship to the planet. It’s pretty profound.

Similar Posts