[해외DS] 엔비디아 CEO, “두 가지 컴퓨팅 트렌드가 동시에 떠오르고 있다”

엔비디아 CEO 젠슨 황, 컴퓨텍스 2023 기조연설 맡아 AI 컴퓨팅 근간인 GPU 생산하는 엔비디아, 지난달 30일 반도체 기업 최초로 시총 1조 돌파하기도 황 CEO, AI용 GPU 칩 H100, 그레이스 호퍼 슈퍼칩, AI 슈퍼컴퓨터 DGX GH200 등 선보여

20
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진=AI 비즈니스

미국의 컴퓨터 칩 제조업체 엔비디아(Nvidia)의 CEO 젠슨 황(Jensen Huang)은 지난 5월 30일부터 대만에서 열린 컴퓨텍스(Computex) 2023 기조연설에서 CPU가 지배하는 컴퓨팅 시대가 저물고 가속 컴퓨팅과 생성 AI라는 두 가지 새로운 트렌드가 동시에 떠오르고 있다고 말했습니다.

그는 각각의 데이터 센터가 범용 컴퓨팅을 위한 CPU 기반 인프라에서 가속 컴퓨팅을 위한 GPU 기반 인프라로 전환, 생성 AI 실행에 필수적인 특정 도메인에 대한 대용량 데이터 처리를 가능하게 할 것이라며 이러한 변화가 “소프트웨어를 실행하는 새로운 방식”, 즉 딥 러닝 덕분이라고 덧붙였습니다. 또한 현재를 “새로운 컴퓨팅 모델이 개발되고 생성된 최초의 주요한 시점 가운데 하나”로 보고 있다는 견해를 밝혔습니다.

황 CEO에 따르면 기술 전환은 효율성과 비용 절감이 필요할 때 발생합니다. 예를 들어 1980년대에 시작된 컴퓨터 혁명은 사람들이 컴퓨터를 저렴하게 사용할 수 있도록 했습니다. 이후 전화뿐 아니라 카메라와 음악 플레이어, 컴퓨터의 기능을 한데 모은 스마트폰이 등장하면서 편리함과 다양성, 경제성은 더욱 늘어났죠.

엔비디아의 GPU는 AI 컴퓨팅의 근간이라 해도 과언이 아닙니다. 지난 30일 이 회사의 시가총액은 장중 1조 달러를 돌파하기도 했는데, 이는 반도체 기업 사상 최초의 기록입니다.

황 CEO는 “The more you buy, the more you save(더 많이 사면 더 많이 절약한다).”라며 엔비디아의 GPU를 많이 사면 살수록 전체적인 비용이 줄어든다고 주장했습니다.

그는 하나의 대형 언어 모델(LLM)을 교육하려면 CPU 서버 960개와 전력량 11GWh, 액수로는 1,000만 달러가 필요하지만, 같은 값으로 가속 컴퓨팅을 위한 GPU 서버 48개를 구축하면 44개의 LLM을 훈련시킬 수 있다고 설명했습니다. 만약 3,400만 달러를 들여 GPU 서버 176개를 구매하면 똑같은 전력량 11GWh로 무려 150개의 LLM을 훈련시킬 수 있죠. LLM 1개를 만들려면 40만 달러를 들여 GPU 서버 2개를 구축하면 되는데, 여기에 들어가는 전력량은 0.13GWh에 불과합니다.

황 CEO는 “우리가 원하는 것은 큰 컴퓨터가 아닌, 집약적인 컴퓨터입니다.”라고 전했습니다.

데이터 센터도 변화할 것

컴퓨팅을 분산하면 가속 컴퓨팅 없이도 LLM 훈련을 수행할 수 있습니다. 하지만 이를 위해서는 데이터 센터를 더 많이 구축해야 하는데, 황 CEO에 따르면 그 비용은 엄청납니다. 그는 이 문제 때문에 기존의 데이터 센터가 가속화된 컴퓨팅 서버로 강화될 것이라며 “오늘날에는 거의 모든 이들에게 전력 제한이 존재하니…각각의 데이터 센터가 더 많은 일을 처리하도록 해야 합니다.”라고 말했습니다.

아울러 이러한 트렌드는 이미 시작됐고, “엔비디아 GPU의 활용도는 어마어마합니다.…거의 모든 데이터 센터는 과도하게 확장되어 있고, 그곳에는 (엔비디아 GPU에) 의존하는 다양한 애플리케이션이 존재합니다.”라며 “말 그대로 전세계에서 수요가 넘쳐납니다.”라고 덧붙였습니다. 현재 엔비디아는 AI용 GPU 칩 H100을 양산하고 있습니다.

엔비디아 CEO 젠슨 황이 자사의 H100 칩을 자랑하고 있습니다. 칩의 가격은 약 20만 달러로 책정됐습니다./사진=AI 비즈니스

황 CEO는 엔비디아가 소프트뱅크(SoftBank)와 협력해 생성 AI 및 5G/6G 애플리케이션을 위한 새로운 플랫폼을 개발할 예정이라고 밝혔습니다. 이 플랫폼은 전 세계 곳곳에 설립될 소프트뱅크의 새로운 데이터 센터에 배치돼 멀티 테넌트(multi-tenant) 공동 서버 플랫폼에서 생성 AI와 무선 애플리케이션을 호스팅하게 됩니다.

숫자, 단어 그 이상

황 CEO는 역사상 처음으로 컴퓨터가 숫자와 단어 이상의 것을 이해할 수 있게 되었다며 “우리에게는 많은 형식의 표현을 이해할 수 있는 소프트웨어 기술이 있습니다. 그 덕분에 이전에는 불가능했던 많은 분야에도 컴퓨터 공학 도구가 적용될 수 있게 됐죠.”라고 전했습니다.

컴퓨터는 이제 다양한 ‘구조의 언어(the language of the structure)’를 배울 수 있습니다. 이는 트랜스포머(Transformer)가 사용되는 자율적 학습(unsupervised learning)으로 다음 단어를 예측하는 방법을 배우면서 가능해졌죠. 황 CEO는 바로 이것으로부터 LLM이 탄생했다고 말했습니다.

그는 컴퓨터가 프롬프트 형태로 들어오는 제어 및 안내를 통해 다른 도메인의 언어를 학습하고 나면, 사용자는 AI를 활용해 모든 종류의 새로운 정보를 생성할 수 있다고 설명했습니다. 덕분에 텍스트를 이미지로, 단백질로, 음악으로 변환하는 것, 즉 한 유형의 정보를 다른 유형으로 변환하는 작업이 가능해졌고, 이전에는 불가능했던 많은 분야에 컴퓨터 과학의 도구를 적용할 수 있게 됐습니다.

이어 황 CEO는 컴퓨팅에 대한 장벽이 “믿을 수 없을 정도로” 낮아졌다고 언급했습니다. 모든 사람이 챗GPT(ChatGPT)를 활용해 텍스트 프롬프트에서 콘텐츠를 생성할 수 있게 됐다는 점을 생각하면 됩니다. 그는 “우리는 디지털 격차를 해소했습니다. 이제는 모두가 프로그래머죠. 컴퓨터에 말만 하면 됩니다.”라며 “굉장히 쉽게 쓸 수 있기에 그 영향력은 모든 산업군에서 발현됩니다.”라고 덧붙였습니다.

한편 황 CEO에 따르면 AI는 “이전 세대의 모든 단일 애플리케이션에 놀라운 영향을 미칩니다.” 즉 “존재하는 모든 애플리케이션은 AI 덕분에 더 좋아질 것입니다. 컴퓨팅 시대에는 새로운 애플리케이션 없이도, 오래된 애플리케이션을 가지고도 성공할 수 있습니다.” 마이크로소프트, 구글 등 유수의 대기업이 생성 AI를 기존 제품군에 통합하고자 노력하고 있는 것 역시 이러한 이유에서입니다.

새로운 컴퓨팅 접근 방식

하지만 AI에는 새로운 컴퓨팅 접근 방식이 필요합니다. 초기부터 가속 컴퓨팅이 구축돼야 하죠.

이에 황 CEO는 엔비디아의 NV링크-C2C(NVLink-C2C) 상호 연결 기술로 암(Arm) 기반 엔비디아 그레이스(Grace) CPU와 호퍼(Hopper) GPU 아키텍처를 결합한 그레이스 호퍼 슈퍼칩(Grace Hopper Superchip)을 소개했습니다. 초당 900GB에 이르는 고속 대역폭이 서로 다른 칩을 연결하죠. 그는 GPU와 CPU에 존재하는 메모리 참조 기능 덕분에 불필요한 복사 과정을 피할 수 있었다고 밝혔습니다. 이 슈퍼칩도 현재 양산에 돌입했는데, 실제로 시스템에 탑재되는 것은 올해 말이 될 예정입니다.

그레이스 호퍼 슈퍼칩/사진=AI 비즈니스

한편 엔비디아는 매개변수 1조 개로 구성된 언어 모델을 개발할 수 있는 새로운 AI 슈퍼컴퓨터 DGX GH200을 공개했습니다. 이 컴퓨터는 그레이스 호퍼 슈퍼칩 256개가 NV링크로 연결된 하나의 “대형” GPU를 탑재해 생성 AI 언어 응용 프로그램, 추천 시스템 그리고 데이터 분석 작업을 위한 “거대한” 모델을 개발할 수 있다고 합니다. 슈퍼칩들이 합쳐진 공유 메모리 용량은 144테라바이트에 달하고, 성능 수준은 1엑사플롭(초당 100경 번의 부동소수점 연산을 처리하는 수준)입니다. 올해 말부터 구글 클라우드, 메타(Meta), 마이크로소프트를 비롯한 클라우드 서비스 기업에 제공될 예정입니다.

DGX GH200/사진=AI 비즈니스

또한 세계 최대의 광고 및 마케팅 대행사 WPP와 손을 잡고 어도비(Adobe), 게티이미지(Getty Images)와 같은 유명 이미지 플랫폼과 통합된 AI 콘텐츠 엔진 개발에 박차를 가하고 있습니다. WPP의 디자이너가 생성 AI를 활용해 고도로 개인화된 콘텐츠를 만들 수 있게 되는 겁니다. 황 CEO는 현재의 광고가 정보 검색을 통해 만들어진다면, 미래의 광고는 어느 한 개인을 위해 생성될 것이라고 이야기했습니다.

황 CEO는 이외에도 AI, HPC 및 옴니버스 애플리케이션 구축을 위한 MGX 서버의 사양과 하이퍼스케일 생성 AI용 가속 이더넷 플랫폼 스펙트럼(Spectrum)-X를 소개했습니다.

황 CEO의 기조연설은 무려 2시간 분량이었습니다. 그는 발표량이 지나치다며 “이건 너무 많아요!”라고 투덜대기도 했습니다.


Nvidia CEO: Two Computing Trends Are Emerging At Once

Nvidia CEO Jensen Huang said the CPU-dominated computing era is ending and two new trends are rising simultaneously: Accelerated computing and generative AI.

He believes each data center will transition from CPU-based infrastructure for general purpose computing to GPU-based accelerated computing to handle the heavy workload of generative AI capabilities for specific domains. He credits this shift to a “new way of doing software” that is deep learning.

“This is really one of the first major times in history a new computing model has been developed and created,” said the chipmaker’s CEO at the recent Computex conference in Taiwan.

Huang contends that technology transitions occur due to efficiency and lower costs. For example, the PC revolution began in the 1980s that made computer affordable for people. Then smartphones came about that bundled a phone, camera, music player and computer in one device. It saved the user money and offered convenience and variety.

Nvidia’s GPUs are the backbone for AI compute. On Tuesday, the company’s market value soared past $1 trillion in market value intraday as the most valuable chipmaker in the world.

Huang believes accelerated computing will take off because users that “buy more, save more.”

For example, Huang said it will take $10 million, 960 CPU servers and 11 GWh to train one large language model (LLM). With accelerated computing, $10 million can buy 48 GPU servers, use up 3.2 GWh and train 44 LLMs. To splurge, $34 million buys 172 GPU servers using 11 GWh to train 150 LLMs.

On the lower end, $400,000 snags 2 GPU servers, uses up 0.13 GWh to train one LLM.

“We want dense computers, not big ones,” he said.

Data centers will muscle up

To be sure, distributing the compute could accomplish LLM training without using accelerated computing. But Huang said it is expensive to build more data centers. His prediction is that existing data centers will be muscled up with accelerated computing servers.

“Make each data center work more,” he said. “Almost everybody is power-limited today.”

The trends are taking off. “The utilization is incredibly high,” Huang said. “Nvidia GPU utilization is so high … almost every single data center is overextended, there are so many different applications using it.”

“The demand is literally from every corner of the world,” he added. Nvidia’s H100 AI chip is in full volume production.

Huang announced that Nvidia is partnering with SoftBank to develop a new platform for generative AI and 5G/6G applications. It will be deployed in SoftBank’s new data centers worldwide to host generative AI and wireless applications on a multi-tenant common server platform.

More than numbers and words

For the first time in history, computers can understand more than numbers and words, Huang said.

“We have a software technology that can understand the representation of many modalities. We can apply the instrument of computer science to so many fields that were impossible before,” he said.

Computers can now learn the language of the structure of many things. This capability came about when unsupervised learning using Transformers learned to predict the next word. Thus, LLMs were created, Huang said.

“We can learn the language of the structure” of many other things, he said.

Once the computer learned the language of different domains, with control and guidance through prompts, the user can guide the AI to generate new information of all kinds, Huang said. This made the transformation of one type of information to another possible, such as text-to-image, text-to-proteins, text-to-music and others.

“We can apply the instrument of computer science to so many fields that were impossible before,” Huang said.

Meanwhile, the barrier to computing is now “incredibly low,” he added. As any user of ChatGPT can attest, one can use a text prompt to generate content. “We have closed the digital divide. Everyone is a programmer now. You just have to say something to the computer.”

“It’s so easy to use that’s why it touches every industry,” Huang said.

What’s more is that AI “can do amazing things for every single application from the previous era,” he said. “Every application that exists will be better because of AI. This computing era does not need new applications; it can succeed with old applications.”

This is why generative AI is being incorporated into suites of existing products by Microsoft, Google and others.

New computing approach

But AI needs a new computing approach: Accelerated computing built from the ground up.

To that end, Huang showed off the Grace Hopper Superchip, which brings together the Arm-based Nvidia Grace CPU and Hopper GPU architectures using the Nvidia NVLink-C2C interconnect technology. High-speed bandwidth of 900 GB per second connects chip to chip. Huang said the GPU and CPU can reference the memory so unnecessary copying is avoided.

The Grace Hopper is in full production.

Huang also showed off a new AI supercomputer capable of developing trillion-parameter language models. It connects 256 Grace Hopper Superchips that operates as one “massive” GPU to enable the development of “giant” models for generative AI language applications, recommender systems and data analytics workloads, the company said.

Called DGX GH200, the supercomputer boasts 144 terabytes of shared memory among Grace Hopper Superchips, which are interconnected using NVLink. The supercomputer provides 1 exaflop of performance.

Huang said Google Cloud, Meta and Microsoft will be the first companies to have access to the supercomputer.

Nvidia also is partnering with WPP, the world’s largest ad and marketing agency, to develop an AI content engine that integrates with popular platforms such as Adobe and Getty Images. It will enable WPP’s designers to use generative AI to create highly personalized content. Huang said currently, ads are served by retrieving information. In the future, content will not be retrieved but be generated for the individual.

Other announcements include the MGX server specification for building AI, HPC and omniverse applications and an accelerated Ethernet platform for hyperscale generative AI called Spectrum-X.

At the end of Huang’s two-hour keynote, even he seemed overwhelmed by the slew of announcements.

“This is too much,” Huang said. “This is too much.”

Similar Posts