[해외 DS] 범용 인공지능, 아직은 먼 미래다

최근 출시되고 있는 인공지능 서비스, 과연 범용인공지능 시대가 도래한 것일까 인공지능, 아직 출력되는 결과에 대한 신뢰성 및 논리적 문제 해결 능력 부족해 전문가들 현재 인공지능 업계의 AI 기술 과대포장에 대한 우려의 목소리 높여

6
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진= Michael Glenwood/Scientific American

일반인이 보기에는 인공지능 분야가 엄청난 발전을 이루고 있는 것처럼 보일 것입니다. 뉴스와 SNS에서는 OpenAI의 DALL-E2가 어떤 텍스트에 대해서든 멋진 이미지를 생성할 수 있는 것처럼 보도하고 있습니다. 또한 OpenAI의 GPT-3은 간단한 산수부터 어려운 전공 지식까지 물어보기만 한다면 뭐든지 정답을 말해주는 것처럼 보입니다. 한편 지난 5월 Alphabet의 사업부인 DeepMind에서 출시한 Gato는 회사에서 배정하는 모든 업무를 동시에 처리할 수 있는 것으로 알려졌습니다. DeepMind의 고위 간부 A씨는 “이제 AI는 인간 수준의 지능과 유연성을 갖췄으며, 범용 인공지능(AGI) 시대도 머지 않았다. 게임은 끝났다”고 전했습니다.

그러나, 이는 아직 게임은 끝나지 않았습니다. 실제 세계를 논리적으로 이해하고 추론할 수 있는 범용 인공지능을 만들기 위해서는 여전히 많은 과제들이 남겨져 있습니다. 여전히 인공지능에 대한 기초 연구는 필요합니다.

물론 인공지능은 발전하고 있는 것은 사실입니다. AI가 생성한 이미지는 점점 더 사실적으로 보이고, 음성 인식 기술은 사람의 목소리와 소음을 분리하여 시끄러운 환경에서도 작동합니다. 그러나, 인간 수준으로 글과 영상을 이해하고 예상치 못한 변수를 처리할 수 있는 범용 인공지능을 개발하기 위해서는 아직 먼 길이 남았습니다. AI는 출력하는 정보의 불확실성, 편향 문제로 여전히 신뢰할 수 없고, 학습되지 않은 상황에 대한 대처능력이 현저하게 떨어지기 때문입니다.

아래는 최근 ‘범용인공지능’, ‘도깨비 방망이’ 로 불리며 전 세계의 이목을 끌고 있는 Gato가 야구공을 던지는 투수의 사진을 설명하는 예시입니다.

사진= Bluesguy from NY/Flickr (CC BY-ND 2.0)

마운드 위에서 공을 던지는 야구 선수

마운드에서 투수에게 야구공을 던지는 남자

야구 경기 중에 타석에 있는 야구 선수와 흙 위의 포수

첫 번째 답은 맞지만, 다른 두 응답에는 사진에 포함되어 있지 않은 다른 사람을 설명하며 틀린 대답을 내놓았습니다. 알고리즘은 다른 이미지와의 통계적 유사성으로 도출한 근사치를 내놓을 뿐이지, 실제로 그림에 무엇이 있는지는 파악하지 못하기 때문입니다.

마찬가지로 DALL-E2는 파란색 큐브 위에 있는 빨간색 큐브 이미지와 빨간색 큐브 위에 있는 파란색 큐브 이미지를 구분하지 못합니다. 지난 5월에 출시한 새로운 알고리즘 또한 말을 타고 있는 우주비행사와 우주비행사가 타고 있는 말을 구분하지 못했습니다.

구글 연구자들이 ‘우주 비행사를 탄 말’을 생성하도록 요청했을 때, 자사 인공지능은 ‘말을 탄 우주비행사’ 이미지를 생성했습니다. 사진= Imagen

DALL-E2와 같은 이미지 생성 시스템이 오류를 출력하는 것은 그 결과에 대한 영향이 미비하기 때문에 용인할 수 있으나, 때때로 AI가 생성하는 오류는 심각한 결과를 초래할 수 있습니다. 예컨대 최근 Tesla의 자율주행시스템은 도로 한가운데 정지 표지판을 들고 있는 사람을 통해 속도를 높였던 사례가 있습니다. 시스템은 일반적으로 사람과 사물을 구분하여 인식하지만, 둘의 익숙하지 않은 조합(정지 표지판을 들고 있는 사람)에 대해서는 제대로 된 판단을 하지 못했기 때문입니다.

그런데 대부분의 일반인들은 이러한 AI의 이면에는 둔감한 것으로 보입니다. 예컨대 Gato는 DeepMind가 보고한 모든 작업에서는 좋은 성능을 보였으나, 한 가지 일만 할 수 있는 AI모델 만큼 특정 과업을 잘 수행하지는 못한다는 단점을 가지고 있습니다. 또한 GPT-3는 유창한 산문을 작성할 수는 있지만 기본적인 산술에서는 오류를 출력하며, 현실에 대한 이해가 없기 때문에 “일부 전문가들은 양말을 먹는 행위가 뇌가 고요한 상태에서부터 벗어나도록 도움을 준다”는 식의 터무니 없는 문장을 출력하기도 합니다. 그러나 최근 대부분의 뉴스는 이러한 문제에 대해서는 다루고 있지 않습니다.

또한 인공지능 연구자들이 더 이상 엄밀한 논문 검토를 요하는 학계를 벗어나 기업으로 넘어가고 있습니다. 학문적 엄밀성을 요구하지 않는 기업에서 연구원들은 동료 평가와 같은 깐깐한 논문 검토 과정을 거치지 않고 비즈니스 측면에서 이익 창출을 위한 인공지능을 개발하고 있습니다.

소프트웨어 업계에서는 이와 같은 인공지능을 ‘데모웨어’라고 부릅니다. 즉, 데모용 개발한 인공지능은 노이즈 마케팅으로 활용하기에는 좋지만, 실제 세계에서 작동하기에는 충분하지 않다는 것입니다.

하지만, 모든 거품 가격은 본질 가치로 회귀하는 법입니다. 일부 전문가들은 현재 대중들에게 과대평가된 AI가 다시 차가운 겨울을 경험할 것이라고 예측하고 있습니다. 무인 자동차, 자동화된 방사선 전문의, 다목적 디지털 에이전트와 같은 많은 인공지능 시스템들이 시연되고 홍보되었지만 실제 상용화된 서비스는 극히 드뭅니다. 현재 투자금은 AI업계로 쏠리고 있지만, 정보의 불확실성, 새로운 환경에 대한 대처문제가 해결되지 않으면 곧 투자 열풍은 사그라 들 것입니다. 인공지능 분야는 자연어 처리, 컴퓨터 비전 분야에서 확실한 발전을 이루었지만 딥페이크, 데이터로부터 그대로 학습하는 인공지능의 성・인종 편향 등 여전히 해결해야할 큰 문제 또한 존재합니다.

딥러닝은 인공지능으로 하여금 데이터의 비선형적인 패턴을 인식하는 능력을 크게 발전시켰지만 기존 패턴에서 벗어나는 노이즈(새로운 환경)에 대해서는 매우 취약한 예측 성능을 보입니다. Harvard University의 컴퓨터 과학자인 Les Valiant는 “현재 인공지능이 직면하고 있는 가장 큰 문제는 ‘추론’이 불가능하다는 것이다”라고 말했습니다. 즉, Tesla의 자율주행시스템의 사례가 보여주듯, 정지 신호를 들고 있는 사람을 피해갈 수 있는 능력은 아직 구현하기 어렵다는 것입니다.

현재 인공지능 산업은 근본적인 아이디어가 아닌 벤치마크를 추구하고 있습니다. 즉, AI 업계는 현재의 과학적 기반으로 구현 가능한 인공지능의 수준을 무시한 채 이를 과대포장 하여 대중들에게 내놓고 있습니다. 이들은 명확한 이론적 기반을 통해 새로운 기술을 개발하기 보다는 이해되지 않는 도구를 사용해서 사람들이 인공지능에 대한 잘못된 환상을 갖게 합니다.

인공지능 연구자들은 범용인공지능을 구축하는 방법에 대한 근본적인 질문을 던지고, 대중들이 인공지능에 대한 잘못된 망상을 가지지 않도록 노력 해야할 것입니다.


To the average person, it must seem as if the field of artificial intelligence is making immense progress. According to some of the more gushing media accounts and press releases, OpenAI’s DALL-E 2 can seemingly create spectacular images from any text; another OpenAI system called GPT-3 can talk about just about anything—and even write about itself; and a system called Gato that was released in May by DeepMind, a division of Alphabet, reportedly worked well on every task the company could throw at it. One of DeepMind’s high-level executives even went so far as to brag that in the quest to create AI that has the flexibility and resourcefulness of human intelligence—known as artificial general intelligence, or AGI—“the game is over.”

Don’t be fooled. Machines may someday be as smart as people and perhaps even smarter, but the game is far from over. There is still an immense amount of work to be done in making machines that truly can comprehend and reason about the world around them. What we need right now is less posturing and more basic research.

AI is making progress—synthetic images look more and more realistic, and speech recognition can often work in noisy environments—but we are still likely decades away from general-purpose, human-level AI that can understand the true meanings of articles and videos or deal with unexpected obstacles and interruptions. The field is stuck on precisely the same challenges that academic scientists (including myself) having been pointing out for years: getting AI to be reliable and getting it to cope with unusual circumstances.

Take the recently celebrated Gato, an alleged jack of all trades, and how it captioned an image of a pitcher hurling a baseball (above). The system’s top three guesses were:

A baseball player pitching a ball on top of a baseball field.

A man throwing a baseball at a pitcher on a baseball field.

A baseball player at bat and a catcher in the dirt during a baseball game.

The first response is correct, but the other two answers include hallucinations of other players that aren’t seen in the image. The system has no idea what is actually in the picture, beyond the rough approximations it draws from statistical similarities to other images. Any baseball fan would recognize that this is a pitcher who has just thrown the ball and not the other way around. And although we expect that a catcher and a batter are nearby, they obviously do not appear in the image.

Likewise, DALL-E 2 couldn’t tell the difference between an image of a red cube on top of a blue cube versus an image of a blue cube on top of a red cube. A newer system, released this past May, couldn’t tell the difference between an astronaut riding a horse and a horse riding an astronaut.

When image-creating systems like DALL-E 2 make mistakes, the result can be amusing. But sometimes errors produced by AI cause serious consequences. A Tesla on autopilot recently drove directly toward a human worker carrying a stop sign in the middle of the road, slowing down only when the human driver intervened. The system could recognize humans on their own (which is how they appeared in the training data) and stop signs in their usual locations (as they appeared in the training images) but failed to slow down when confronted by the unfamiliar combination of the two, which put the stop sign in a new and unusual position.

Unfortunately, the fact that these systems still fail to work reliably and struggle with novel circumstances is usually buried in the fine print. Gato, for instance, worked well on all the tasks DeepMind reported but rarely as well as other contemporary systems. GPT-3 often creates fluent prose but struggles with basic arithmetic and has so little grip on reality it is prone to creating sentences such as “Some experts believe that the act of eating a sock helps the brain to come out of its altered state as a result of meditation.” A cursory look at recent headlines, however, wouldn’t tell you about any of these problems.

The subplot here is that the biggest teams of researchers in AI are no longer to be found in the academy, where peer review was the coin of the realm, but in corporations. And corporations, unlike universities, have no incentive to play fair. Rather than submitting their splashy new papers to academic scrutiny, they have taken to publication by press release, seducing journalists and sidestepping the peer-review process. We know only what the companies want us to know.

In the software industry, there’s a word for this kind of strategy: “demoware,” software designed to look good for a demo but not necessarily good enough for the real world. Often demoware becomes vaporware, announced for shock and awe to discourage competitors but never released at all.

Chickens do tend to come home to roost, though, eventually. Cold fusion may have sounded great, but you still can’t get it at the mall. AI will likely experience a winter of deflated expectations. Too many products, like driverless cars, automated radiologists and all-purpose digital agents, have been demoed, publicized—and never delivered. For now the investment dollars keep coming in on promise (who wouldn’t like a self-driving car?). But if the core problems of unreliability and failure to cope with outliers are not resolved, investment will dry up. We may get solid advances in machine translation and speech and object recognition but too little else to show for all the premature hype. Instead of “smart” cities and “democratized” health care, we will be left with destructive deepfakes and energy-sucking networks that emit immense amounts of carbon.

Although deep learning has advanced the ability of machines to recognize patterns in data, it has three major flaws. The patterns that it learns are, ironically, superficial not conceptual; the results it creates are hard to interpret; and the results are difficult to use in the context of other processes, such as memory and reasoning. As Harvard University computer scientist Les Valiant noted, “The central challenge [going forward] is to unify the formulation of … learning and reasoning.” You can’t deal with a person carrying a stop sign if you don’t really understand what a stop sign even is.

For now we are trapped in a “local minimum” in which companies pursue benchmarks rather than foundational ideas. Current engineering practice is far ahead of scientific skills: these departments focus on eking out small improvements with the poorly understood tools they already have rather than developing new technologies with a clearer theoretical ground. This is why basic research remains crucial. That a large part of the AI research community (like those who shout, “Game over”) doesn’t even see that is, well, heartbreaking.

Imagine if some extraterrestrial studied all human interaction only by looking down at shadows on the ground, noticing, to its credit, that some are bigger than others and that all shadows disappear at night. Maybe it would even notice that the shadows regularly grew and shrank at certain periodic intervals—without ever looking up to see the sun or recognizing the 3-D world above.

It’s time for artificial-intelligence researchers to look up from the flashy, straight-to-the-media demos and ask fundamental questions about how to build systems that can learn and reason at the same time.

Similar Posts

로그아웃

파비리서치 로그아웃 하시겠습니까?

로그인

파비리서치의 많은 정보를 확인하기 위해서는 로그인이 필요합니다!