[해외DS] 생물학의 가장 큰 문제 하나가 마침내 해결되다 (2)

AlphaFold, 항생제 내성부터 플라스틱 오염까지 다양한 문제 해결 중 기초 연구 기여, 약물 개발 및 질병 치료 가속화 돕기도 DeepMind, ‘책임감 있는 선구자’ 되기 위해 윤리적 문제 잊지 않는다

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=Joe Anderson

[해외DS] 생물학의 가장 큰 문제 하나가 마침내 해결되다 (1)에서 이어집니다.

AI는 보통 일종의 ‘블랙박스’ 역할을 하기에 흥미롭습니다. 그런데 지금 보면 AI가 궁극적으로는 자연 세계에 실제로 적용되는 규칙을 배우는 것 같네요.

맞습니다, 그 규칙을 배우고 있다고 생각하면 이해가 좀더 쉬울 겁니다. 앞으로는 AlphaFold의 예측이 정확하지 않은 단백질 영역을 보다 심도있게 조사하고 “단백질이 명확한 형태를 갖추지 않았거나 무언가와 상호 작용을 하지 않고 있을 때가 생물학적 측면에서 정말로 ‘무질서’한 상태인지”를 확인해야 합니다. 지금은 (진핵 생물이 보유한) 단백질 약 30%가 무질서하다 보고 있는데, 이러한 단백질은 많은 경우 신경 퇴행 같은 질병과 연관됩니다. 엉켜버릴 수 있기 때문입니다. 사실 단백질은 구조를 형성하는 것이라기보다는 일종의 플로피 문자열에 가깝기 때문에 이런 상황이 발생합니다.

한편 AlphaFold 2는 머신 러닝 시스템과 무관한, 또 다른 굉장히 중요한 작업을 수행했습니다. 바로 모든 단일 아미노산에 대한 신뢰도 측정값을 산출한 겁니다. 머신 러닝에 대한 사전 지식이 없는 생물학자도 어떤 예측값이 믿을 만 한 것인지를 알 수 있게 하고 싶었기 때문입니다.

AlphaFold의 응용 사례 중 어떤 것이 가장 흥미롭나요?

지난 1년 동안 저희 파트너들(얼리 어답터라고 할 수 있습니다)은 AlphaFold를 이용해 멋진 사례 연구를 해 왔습니다. 항생제 내성을 해결하는 것부터 플라스틱을 먹는 효소를 설계해 플라스틱 오염을 해결하는 것까지, 엄청나게 다양한 연구가 진행되고 있죠. 특히 저는 (CRISPR 유전자 편집 분야 선구자인) Jennifer Doudna와 알팔파(alfalfa) 작물의 지속 가능성에 대해 이야기해 왔습니다. Doudna의 연구팀은 기후 변화 상황에서 보다 지속 가능한 작물을 설계하는 데 매진하고 있습니다.

또한 굉장히 훌륭한 기초 연구도 많이 진행되고 있는데, 가장 먼저 사이언스 특별호에 실린, AlphaFold가 예측한 단백질 형태를 이용해 핵 기공 복합체 구조를 밝혀낸 연구에 대해 이야기하겠습니다. 핵 기공 복합체는 진핵 세포의 핵막에 존재하는 단백질 그룹으로, 신체에서 가장 큰 단백질 중 하나입니다. 몇몇 연구팀이 비슷한 시기에 cryo-EM(극저온 전자 현미경) 데이터를 이용해 이 문제를 해결했는데, 이들은 모두 데이터 일부를 보강하기 위해 AlphaFold의 예측 결과를 활용했습니다. 결과적으로 실험적 구조 데이터와 AlphaFold의 조합은 구조생물학자들에게 도움이 된다는 사실이 밝혀졌습니다. 저희가 예상하지 못했던 부분이죠.

아울러 현재 우리 입에 오르내리는 거의 모든 제약 회사는 AlphaFold를 사용하고 있습니다. 제약 회사는 독점권을 갖고 있기 때문에 AlphaFold의 영향력이 어느 정도인지 확인할 수는 없습니다. 하지만 저는 AlphaFold가 몇 년 동안 약물 개발과 질병 치료를 가속화하는 데 도움이 됐다고 생각합니다.

AI와 AI의 능력은 많이 과장되는 경향이 있습니다. 특히 과학과 의학 분야에서는 더 심각하죠. 그런데 AlphaFold는 분명한 이점을 갖고 있는 것 같습니다.

물론 판단은 당신의 몫입니다만, AlphaFold는 AI가 과학에 기여한 가장 구체적이고 유용한 사례라고 말하는 사람이 많습니다. 저는 저희가 AI의 ‘약속’을 이행하고 있다는 사실에 만족합니다. 그러니까, AI가 과장됐다고 생각하실 수 있겠지만 저희는 저희의 결과물이 말하는 바를 그대로 행할 수 있도록 노력합니다.

저희가 작업을 시작한 2010년에는 AI 분야에서 일하는 사람이 아무도 없었지만, 12년이 지난 지금은 모든 사람들, 과장 좀 보태면 애완견들까지도 AI에 대해 이야기하는 것 같습니다. 그런데 좀더 면밀히 살펴보면 이런 대화의 대부분은 용어를 오용하거나 AI가 무엇인지조차 제대로 이해하지 못한 상태에서 진행됩니다. 그렇게 인상깊지 않은 대화인 것 같기도 하죠. 하지만 저는 AlphaFold가 ‘일어날 수 있는 일’에 대한, 굉장히 훌륭한 개념 증명 혹은 롤 모델이 된다고 생각합니다. 앞으로 10년 동안은 AI가 몇몇 과학적 혁신의 가속화에 큰 역할을 하는 사례를 훨씬 더 많이 보게 될 것입니다. 저희도 여기에 더 많이 기여하고 싶고요. AlphaFold는 시작에 불과합니다.

인공 지능은 지능적인 언어를 만들어낸다거나 디지털 예술을 창조한다는 식으로 최근 뉴스에 많이 등장했습니다. AI는 우리 삶에 점점 더 깊게 들어오고 있는데, 이런 상황을 어떻게 바라봐야 할까요?

DeepMind는 자체적인 대형 언어 모델 및 텍스트-이미지 시스템을 갖고 있습니다. 아직까지는 내부 버전인데, (2023년에는) 그 중 일부를 공개할 것 같습니다. 개발의 ‘폭발’을 보는 건 정말 흥미롭습니다. AlphaFold는 분명히 과학계에서 큰 역할을 하고 있지만, AI가 주류로 진입하게 된 건 언어 및 이미지 AI 덕분입니다. 모든 사람들이 언어가 무엇인지 알고 있고, 이미지를 감상할 수 있습니다. 과학적 전문 지식이 없어도 말입니다.

그렇지만 저는 윤리적인 문제를 잊어버려선 안 된다고 생각하는데, 바로 이것이 저희가 아직까지 언어 기반 AI를 출시하지 않은 이유 중 하나입니다. 저희에게는 이러한 모델이 뭘 할 수 있는지를 분명히 확인해야 할 책임이 있습니다. 어떻게 정해진 경로를 이탈할 수 있는 것인지, 유해성이 있다면 어떻게 되는 것인지 뭐 이런, 현재 시점에서 가장 중요하게 생각하는 모든 것을 확인해야 하는 겁니다. 저희는 이러한 시스템 중 일부는 아직까지 일반 대중에게 공개할 수 없다고 생각합니다. 백번 양보해도 제한은 둬야 합니다. 하지만 적절한 순간이 온다면 공개할 겁니다. DeepMind의 신조 중 하나는 ‘책임감 있는 선구자’인데, 저는 이 신조를 과학적 방법으로 이러한 시스템을 분석하고 구축할 때 지켜야 한다고 생각합니다. 또한 저는 종종 “그냥 해킹하고, 밖으로 내놓은 다음에 어떻게 되는지 보자.”는 종류의 해커 정신을 특히 실리콘 밸리에서 자주 발견합니다. AI와 같이 영향력 있고 잠재적으로 강력한 기술에 대한 이러한 시각은 분명히 잘못됐습니다.

제가 평생을 AI 연구에 바친 건 AI가 질병 치료, 기후 변화 지원 등 인류에게 가장 유익한 일을 할 것이라고 생각하기 때문입니다. 하지만 AI는 양날의 검입니다. 중요한 건 사회가 AI를 어떻게 배치하고, 어떤 용도로 사용하는가입니다.

그리고 저는 소셜 미디어에 그 결과가 반영된다고 생각합니다.

AI는 소셜 미디어에서 어떻게 사용되거나 오용되고 있습니까?

소셜 미디어의 AI는 사실 AI가 아니라 좀더 진보한 통계 알고리즘입니다. 아무튼, 저희는 민주주의의 ‘의도치 않은’ 결과를 보았습니다. 아마 소셜 미디어 플랫폼을 처음 만든 이들에게는 나쁜 의도가 없었을 것입니다. 단지 통제가 불가능해졌겠죠. 하지만 이런 연쇄 효과를 좀더 일찍 생각할 순 없었을까요? “오, 이런 일이 일어났네요.”라는 한 마디를 던진 뒤, ‘소 잃고 외양간 고치기’를 하는 상황을 맞닥뜨리기 전에 말입니다. 강력한 기술을 그렇게 휘두르면 안 됩니다. 예를 들자면 CRISPR 같은 기술에서 일종의 영감이나 조언을 구할 수 있습니다. 저는 이미 이러한 질문에 대답한 바 있는, 다른 과학계가 교훈이 될 수 있다고 생각합니다.


The fascinating thing about AI in general is that it’s kind of a black box. But ultimately it seems like it’s learning actual rules about the natural world.

Yeah, it’s almost learning about it in an intuitive sense. I think we’ll have more and more researchers looking at protein areas that AlphaFold is not good at predicting and asking, “Are they actually disordered in biology when the protein doesn’t have a clear shape, when it’s not interacting with something?” About 30 percent of proteins [from organisms with a nucleus] are thought to be disordered. A lot of those kinds of proteins are implicated in disease, such as neurodegeneration, because they might get tangled. And you can see how they might do so because they’re just sort of floppy strings rather than forming structures.

The other extremely important thing we did with AlphaFold 2, which we don’t do with machine-learning systems, was output a confidence measure on every single amino acid because we wanted a biologist to be able to know which parts of the prediction they could rely on without needing to understand anything about the machine learning.

What are some of AlphaFold’s most exciting applications?

We have a lot of nice case studies from partners—early adopters—that have had a year to work with AlphaFold. They’re doing an incredibly diverse set of things, from addressing antibiotic resistance to tackling plastic pollution by designing plastic-eating enzymes. I’ve been talking to [CRISPR gene-editing pioneer] Jennifer Doudna about alfalfa crop sustainability—her team is trying to engineer crops to be a bit more sustainable in the face of climate change.

There’s also lots of very cool fundamental research being done with it. There was an entire special issue of Science on how scientists solved the structure of the nuclear pore complex. This group of membrane-spanning proteins in the nucleus of eukaryotic cells is one of the biggest proteins in the body. Several groups solved it at the same time from the cryo-EM [cryogenic electron microscopy] data—but they all needed AlphaFold predictions to augment those data in some places. So a combination of experimental structural data with AlphaFold turns out to be a boon to structural biologists, which we weren’t necessarily predicting.

And then in practical terms, almost every pharma company we’ve talked to is using AlphaFold. We’ll probably never know what the full impacts are because obviously they keep that proprietary. But I like to think we’ve helped accelerate drug development and cures for diseases by a few years.

There’s been a lot of hype around AI and everything it can do, especially for science and medicine. But AlphaFold seems to have a clear benefit.

I mean, it’s for you to decide. But I would say I’ve had a lot of people tell me that it’s the most concrete, useful case of AI doing something in science. I like the fact that we’re delivering on the promise of AI. I mean, you could say “hype,” but we try and let our work speak for itself.

I remember when we started in 2010, nobody was working on AI. And 12 years later it seems like everyone and their dog are talking about it. And in most cases, as I’m sure you have to sift through all the time, it’s like they don’t know what AI even is sometimes, or they’re misusing the term, or it’s not that impressive what’s going on. But I think AlphaFold is a very good proof of concept or role model of what could happen. And I think we’re going to see much more of that in the next decade—of AI helping to genuinely accelerate some scientific breakthroughs—and we hope to be part of a lot more. We think it’s just the beginning.

AI has been in the news a lot lately, whether for producing intelligent language or creating digital art. As AI becomes a bigger part of our lives, how should we think about its consequences?

We at DeepMind have our own internal versions of large language models and text-to-image systems, and we’ll probably be releasing some of them at some point [in 2023]. It’s really interesting seeing the explosion of developments. AlphaFold, obviously, is huge in the scientific community. But with language and image AIs, it’s starting to break through into the mainstream. Everyone, of course, knows about language and can appreciate images—you don’t have to have any scientific expertise.

But I think we should always be thinking about the ethical issues, and that’s one reason we haven’t released our language-based AI yet. We’re trying to be responsible about really checking what these models can do—how they can go off the rails, what happens if they’re toxic, all of these things that are currently top of mind. It’s our view that some of these systems are not ready to release to the general public, at least not unrestricted. But at some point, that’s going to happen. We have this phrase at DeepMind of “pioneering responsibly.” And for me, that’s about applying the scientific method to analyzing and building these systems. I think often, especially in Silicon Valley, there’s this sort of hacker mentality that “we’ll just hack it and put it out there and then see what happens.” I think that’s exactly the wrong approach for technologies as impactful and potentially powerful as AI.

I’ve worked on AI my entire life because I think it’s going to be the most beneficial thing ever for humanity, for things like curing diseases, helping with climate change, all of this stuff. But it’s a dual-use technology: it depends on how, as a society, we decide to deploy it—and what we use it for.

And I think we’re seeing the consequences of that with social media.

How is AI being used—or misused— in social media?

It’s not proper AI; it’s more statistical algorithms. But we’ve seen the unintended consequences for democracies. Probably the people who created the social media platforms did not have bad intent when they started; it just kind of got out of hand. But we want to make sure that we think about those knock-on effects early, before going, “Oh, oops, this happened,” and then trying to bolt the barn door after the horses have left. We shouldn’t do that with powerful technologies. We can take some inspiration and advice from, for example, CRISPR and other technologies. I think there are things we can learn from other scientific communities that have tackled these questions.

Similar Posts