엘론 머스크의 대담한 도박, 자체 슈퍼컴 제작에 1조 투자한다

이형우 연구원 2023-07-20 16:162023-07-20 2023-07-20 16:16

10억 달러(약 1조원) 투자 소식에 4% 하락한 주가 22TFLOPS의 FP32 성능 제공하는 테슬라 자체설계 D1칩 반도체 한계 뛰어넘는 스케일아웃 방식 최적화

일론 머스크 테슬라 CEO는 차세대 슈퍼컴퓨터 도조 개발에 내년까지 10억 달러(1조2,787억원)를 투입한다고 발표했다. 머스크의 깜짝 발표에 테슬라 주가가 4% 이상 하락했다. 블룸버그의 보도에 따르면 머스크는 19일(현지시간)에 열린 컨퍼런스 콜에서 이 소식을 전했다.

‘훈련장’이라는 뜻의 일본어에서 차용해 이름 지어진 도조는 말 그대로 AI 훈련용 슈퍼컴퓨터다. 일론 머스크는 도조가 FSD(Full Self Driving) 구현에 있어 핵심 역할을 할 것이라고 강조했으나 여러 전문가들은 실질적인 효과에 의문을 표하는 형편이다.

AI 훈련장, 도조(どうじょう, 道場)

2021년 테슬라의 AI 데이 행사에서 도조가 처음 등장했다. 도조는 테슬라가 독자적으로 구축한 슈퍼컴퓨터 플랫폼으로, 차량에서 나오는 비디오 데이터를 활용한 AI 머신 러닝, 특히 비디오 훈련(Training)특화 목적으로 설계됐다. 당시 테슬라는 비디오 데이터를 활용하는 신경망 훈련은 FSD 실현에 필수라며 도조가 큰 도움이 될 것이라고 설명했다.

오토파일럿과 FSD 베타를 이용하는 고객에게서 수집한 3억 마일 분량의 주행 영상 데이터를 활용해 AI를 학습시킬 수 있다는 점은 테슬라의 독보적인 강점으로 꼽힌다. 경쟁사들 대비 압도적인 분량의 데이터를 확보하고 있기 때문이다. 도조가 예상대로의 성능을 보여줄 경우 테슬라는 데이터 물량과 더불어 AI학습 역량에서도 시장 선도적인 위치를 확보할 수 있다.

도조의 선구적인 설계

도조는 부품 단위에서부터 기존 슈퍼컴퓨터와 차별화된다. 대규모 머신 러닝에 필요한 막대한 데이터를 효율적으로 처리하는 병렬 컴퓨팅 방식에 최적화하기 위해 반도체 단위에서부터 새롭게 설계됐기 때문이다. 이 최첨단 설계는 △컴퓨팅 △네트워킹 △I/O(입/출력) 실리콘 △SA(명령 세트 아키텍처) △전력 공급 △패키징 △냉각 등 여러 영역에 걸쳐 있다.

초기 제품은 0.5세제곱피트 상자 크기의 독립형 컴퓨팅 클러스터 도조 트레이닝 타일(Dojo Training Tile)이다. 트레이닝 타일은 15kW 수냉식 패키지 내에서 FP32(32비트 부동 소수점) 성능으로 556TFLOPS를 처리하도록 설계됐다. 이 유닛의 핵심은 TSMC의 7nm 공정에서 작동하는 500억 개의 트랜지스터 다이(Die,집적회로)인 테슬라의 D1이다. 각 D1은 400W의 열 설계 전력(TDP)을 유지하면서 22TFLOPS의 FP32 성능을 제공할 수 있다.

가네시 벤카타라마난(Ganesh Venkataramanan) 테슬라 하드웨어 엔지니어링 수석 디렉터는 “밀리미터 제곱당 트랜지스터 수로 보면 현존하는 기술 중 가장 정교한 기술일 수 있다”고 말했다. 천문학적 수준의 컴퓨팅 통합을 촉진하기 위해 테슬라는 TSMC의 시스템 온 웨이퍼 기술(system-on-wafer)을 활용해 25개의 D1을 하나로 묶었다. 그 결과 대기 시간을 줄이면서도 대역폭이 높은 스케일 아웃에 최적화된 퍼포먼스를 보일 수 있었다.

벤카타라마난은 이러한 트레이닝 타일이 전체 데이터 센터 또는 건물 전체를 구성할 수 있지만, 컴퓨팅 결과를 처리하기 위해서는 여전히 호스트 CPU가 필요하다고 설명했다. 같은 이유로 테슬라는 호스트 CPU와 트레이닝 프로세서 사이의 통로 역할을 하는 도장 인터페이스 프로세서(DIP)를 개발했다. 또한 DIP는 초당 400기가비트(Gbit/s)로 작동하는 공유 고대역폭 메모리(HBM)와 고속 네트워크 인터페이스 카드(NIC)의 역할을 겸한다.

자동차 회사가 반도체 설계까지 하는 이유

테슬라의 핵심 기업 가치는 완전 자율주행(FSD)의 실현에 있다. FSD 실현을 위해서는 AI기술의 발전이 필수다. 현재 AI 발전의 추세는 ‘다다익선’으로 정리되고 있다. 모델의 크기를 키우고 막대한 데이터를 쏟아붓는 방식이다. 그러나 반도체 성능은 성장의 한계에 부딪힌 상황으로 엔지니어들은 거대 AI 모델을 훈련하기 위한 또 다른 방법을 찾아냈다. 여러 개의 GPU를 병렬로 통합하여 계산을 가속하는 일종의 병렬 컴퓨팅 방식으로 스케일아웃이라고 불린다.

금세 또다른 문제가 발견됐다. 병렬 컴퓨팅 방식에서는 각 장치간의 대역폭 한계가 곧 연산 속도 개선의 한계가 됐다. 가령 500개의 수학 문제를 학생 1명이 푸는 것과 10명이 푸는 상황을 생각해 볼 수 있다. 당연히 10명이 더 빠를 것이다. 반면 5만개의 문제를 1,000명이 풀기 위해서는 문제 풀이는 차치하고 문제를 나눠주고 수거하는 것도 일이다.

테슬라의 해결책은 바로 D1 칩이다. 이 칩을 구성하는 가장 작은 단위부터 문제 분산 방식 개선을 위해 디자인됐다. 서비스, 인프라, 하드웨어, 소프트웨어를 아우르는 테슬라의 풀스택 엔지니어링 역량 덕분에 가능한 해결책이다. 전문가들은 AI라는 거대한 환경에서 최고 수준의 AI 소프웨어 역량부터 기초적인 반도체 칩까지 모든 스택을 갖춘 기업은 테슬라와 구글뿐이라고 설명한다.

반면 GM이나 포드 같은 기존 자동차 제조업체는 아직 어느 분야에서도 실력을 입증하지 못하고 있다. 국내에서는 KT가 테슬라처럼 풀 스택을 달성하기 위해 노력하고 있지만 독자 개발이 아닌 레벨리온 등 다수 기업들과의 제휴를 통한 방식이라고 알려졌다.

완전 자율 주행에 1조원 베팅하기

테슬라의 남다른 기술력에도 불구하고 도조에 대한 비관적인 평가도 많다. 지난 4월 GER은 이 프로젝트가 “성공 가능성이 전혀 없다”고 비판했다. 시장도 비관적인 전망을 공유했다. 10억 달러 투자 발표 이후 테슬라의 주가는 시간외 거래에서 4% 이상 하락했다. 이러한 역풍에도 불구하고 테슬라는 머스크의 10억 달러 투자 결정을 내놨다.

크게 보면 테슬라는 지속적으로 자체 부품과 소프트웨어를 개발하고 생산해왔다. 자체 반도체와 슈퍼컴퓨터를 개발하는 것도 테슬라 특유의 자체 개발 행보의 연장선상으로 볼 수 있다. 많은 사람들의 의심에도 불구하고 테슬라는 그간 많은 성공을 이뤄왔다. 과연 테슬라의 1조원짜리 투자가 이번에도 성공할 수 있을까.

사상 최대 실적에도 ‘원게임 리스크’에 발목 잡힌 시프트업, 중소 개발사 IPO 징크스 극복할 수 있을까?

Analyst Hyojung Lee 2024-04-03 14:532024-04-04 Tech Analysis, IT

‘시프트업’ 지난해 흑자전환 성공, 모바일 게임 이어 콘솔 게임으로 승부수’원게임 리스크’에 여전히 발목 잡혀 있는 상태, 신작 흥행은 IPO에 필수국내 주요 게임사들 대부분 원게임 리스크 극복 못하고 주가 하락세 게임 개발사 시프트업이 유가증권시장 상장을 앞두고 호실적을 발표하며 기업공개(IPO) 흥행을 정조준한다. 게임 하나에 대부분의 매출을 거두는 ‘원게임 리스크’를 해소할 수 있을지가 성공적인 증시 입성의 최대 과제로…

“비전 프로보다 퀘스트3가 낫다” 메타 CEO의 도발, 빅테크 ‘VR 경쟁’ 본격화

Analyst Seoji Kim 2024-02-15 17:502024-02-16 IT

마크 저커버그 메타 CEO, 인스타그램에 ‘비전 프로 체험기’ 게재 “비전 프로보다 우리가 낫다” 메타 퀘스트에 대한 자신감 내비쳐 비전 프로 출시 이후 함께 주목받는 퀘스트, 시장 경쟁 시작됐다 마크 저커버그 메타 최고경영자(CEO)가 애플의 MR(혼합현실) 기기 ‘비전 프로(Vision Pro)’에 대한 직접적인 견해를 밝혔다. 14일(현지 시각) 자신의 인스타그램 계정에 비전 프로와 메타의 VR(가상현실) 기기인 ‘메타 퀘스트3(Meta Quest 3,…

빅데이터 플랫폼 아이지에이웍스, 코르카와 함께 NEXT LEVEL로

Analyst Yoonjung Ha 2022-12-07 09:142022-12-07 IT

지난 6일, 빅데이터 플랫폼 기업 아이지에이웍스가 AI(인공지능) 연구기업 코르카에 전략적 투자(SI)를 진행했다고 밝혔다. 코르카는 AI 모델을 전문적으로 연구하는 스타트업으로, MIT, 카네기멜론, NYU, 서울대 컴퓨터공학 출신 및 국제수학올림피아드 금메달 수상자 등 글로벌 탑티어급 AI 엔지니어들이 다수 포진돼 있다. 이들을 통해 현재 국내외 각종 연구실 및 기업과의 파트너십을 통해 실제 프로덕트에 최신 연구 기술을 적용하고 있다. 아이지에이웍스는…