미래의 딥러닝, AI 에 대하여 논하다. 컴퓨덱스 2023 엔비디아 키노트 > 리뷰

AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 차원이 다른 대용량 메모리 AI 슈퍼컴퓨터 DGX GH200을 발표했다. 엔비디아(NVIDIA) DGX™ 슈퍼컴퓨터는 엔비디아® GH200 그레이스 호퍼 슈퍼칩(Grace Hopper Superchip)과 엔비디아 NVLink® 스위치 시스템(NVLink® Switch System)을 탑재하고, 생성형 AI 언어 애플리케이션과 추천 시스템, 데이터 애널리틱스 워크로드에 사용될 차세대 거대 모델들의 개발을 지원한다.

엔비디아 DGX GH200의 방대한 공유 메모리 공간은 NVLink 인터커넥트 테크놀로지와 NVLink 스위치 시스템으로 GH200 슈퍼칩 256개를 결합해 단일 GPU로 기능하게 한다. 이를 통해 1엑사플롭(exaflop)의 성능과 144테라바이트(terabytes)의 공유 메모리를 제공하는데, 이는 단일 엔비디아 DGX A100 시스템 메모리의 500배에 가까운 용량이다.

엔비디아 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 “생성형 AI와 대규모 언어 모델, 그리고 추천 시스템이 현대 경제의 디지털 엔진이다. DGX GH200 AI 슈퍼컴퓨터는 엔비디아의 가장 진일보한 가속 컴퓨팅과 네트워킹 테크놀로지를 통합해 AI의 영역을 확장한다.”고 말했다.

GH200 슈퍼칩은 엔비디아 NVLink-C2C 칩 인터커넥트를 이용해 Arm 기반 엔비디아 그레이스(Grace)™ CPU와 엔비디아 H100 텐서 코어(Tensor Core) GPU를 동일 패키지에 결합하므로, 기존처럼 CPU와 GPU를 PCIe로 연결할 필요가 없다. 이에 따라 GPU와 CPU 간 대역폭이 최신 PCIe 기술 대비 7배까지 증가해 상호 연결에 필요한 전력 소비가 5배 넘게 절감된다. 아울러 DGX GH200 슈퍼컴퓨터를 위한 600GB의 호퍼 아키텍처 GPU 빌딩 블록이 확보된다.

DGX GH200은 그레이스 호퍼 슈퍼칩과 엔비디아 NVLink 스위치 시스템을 페어링하는 최초의 슈퍼컴퓨터다. 이를 바탕으로 DGX GH200 시스템 내 모든 GPU가 하나로 작동한다. 이전 세대 시스템에서는 NVLink를 사용해 성능의 저하 없이 결합 가능한 GPU의 개수가 8개에 불과했다.

DGX GH200 아키텍처는 이전 세대보다 10배 많은 대역폭과 함께 단일 GPU에 맞먹는 프로그래밍 단순성으로 거대 AI 슈퍼컴퓨터의 강력한 성능을 제공한다.

구글 클라우드(Google Cloud)와 메타(Meta), 마이크로소프트(Microsoft)는 업계 최초로 DGX GH200을 도입해 생성형 AI 워크로드 역량을 탐구한다. 엔비디아는 또한 클라우드 서비스 제공업체와 기타 하이퍼스케일러가 DGX GH200 설계를 청사진으로 삼아 자체 인프라로 커스터마이징 할 수 있도록 지원할 방침이다.

구글 클라우드의 컴퓨팅 부문 부사장 마크 로마이어(Mark Lohmeyer)는 “진일보한 생성형 모델을 구축하려면 AI 인프라에 혁신적으로 접근할 필요가 있다. 새로운 NVLink 스케일과 그레이스 호퍼 슈퍼칩의 공유 메모리가 대규모 AI의 주요 병목 현상들을 해소함에 따라 구글 클라우드와 생성형 AI 이니셔티브 관련 역량들을 깊이 탐구할 수 있을 것으로 기대된다”고 말했다.

메타의 인프라·AI 시스템·가속 플랫폼 부문 부사장 알렉시스 비욜린(Alexis Björlin)은 “AI 모델의 규모 확대와 수요 증가에 부응해 확장이 가능한 강력한 인프라가 필요하다”면서 “엔비디아의 그레이스 호퍼 설계는 연구자가 최대 난제들의 새로운 해결법을 탐구할 수 있게 지원할 것으로 기대를 모은다”고 평가했다.

마이크로소프트의 애저(Azure) 인프라스트럭처 부문 부사장 기리시 바블라니(Girish Bablani)는 “대규모 AI 모델 학습은 전통적으로 자원과 시간이 많이 소요되는 작업이다. 테라바이트 규모의 데이터세트를 처리할 수 있는 DGX GH200의 잠재력을 통해 개발자는 고급 연구를 더 큰 규모와 빠른 속도로 수행할 수 있다”고 말했다.

연구개발 촉진을 위한 엔비디아 헬리오스(Helios) 슈퍼컴퓨터

엔비디아는 자사 연구자와 개발팀을 지원할 DGX GH200 기반 AI 슈퍼컴퓨터를 자체 구축 중이다.

엔비디아 헬리오스(Helios)라는 이름의 이 슈퍼컴퓨터에는 DGX GH200 시스템 4개가 탑재된다. 헬리오스 슈퍼컴퓨터의 각 시스템은 최대 400Gb/s의 대역폭을 가진 엔비디아 퀀텀-2 인피니밴드(Quantum-2 InfiniBand) 네트워킹으로 상호 연결해 대규모 AI 모델의 훈련을 위한 데이터 처리량을 극대화한다. 헬리오스는 그레이스 호퍼 슈퍼칩 1,024개를 탑재하며, 올해 말 가동을 시작할 예정이다.

거대 모델을 위한 완전 통합, 목적 기반 시스템

DGX GH200 슈퍼컴퓨터는 엔비디아 소프트웨어를 포함해 턴키(turnkey) 방식의 풀스택 솔루션을 제공하여 최대 규모의 AI와 데이터 애널리틱스 워크로드를 지원한다. 엔비디아 베이스 커맨드(Base Command)™ 소프트웨어는 AI 워크플로우 관리와 엔터프라이즈급 클러스터 관리, 컴퓨팅/스토리지/네트워크 인프라 가속 라이브러리, AI 워크로드 실행에 최적화된 시스템 소프트웨어를 제공한다.

DGX GH200에는 엔비디아 AI 엔터프라이즈(AI Enterprise)도 추가된다. 엔비디아 AI 플랫폼의 소프트웨어 레이어인 엔비디아 AI 엔터프라이즈는 100개가 넘는 프레임워크와 사전 훈련 모델, 개발용 툴을 통해 생성형 AI와 컴퓨터 비전, 음성 AI 등을 아우르는 프로덕션 AI의 개발과 배포를 간소화한다

전 세계 데이터센터의 다양한 가속 컴퓨팅 요구에 부응하기 위한 엔비디아 MGX 서버 사양을 발표했다. 해당 사양은 시스템 제조사에 모듈식 참조 아키텍처를 제공해 인공지능, 고성능 컴퓨팅(high performance computing, 이하 HPC), 옴니버스(Omniverse) 애플리케이션에 맞는 다양한 서버 변형을 빠르고 경제적으로 구축할 수 있게 한다.

애즈락랙(ASRock Rack), 에이수스(ASUS), 기가바이트(GIGABYTE), 페가트론(Pegatron), QCT, 슈퍼마이크로(Supermicro)는 MGX를 도입해 개발 비용을 최대 3/4 줄이고, 개발 시간도 2/3 줄여 6개월까지 단축할 수 있을 전망이다.

엔비디아의 GPU 제품 담당 부사장인 카우츠브 상하니(Kaustubh Sanghani)는 “기업들은 특정 비즈니스와 애플리케이션 요구에 맞는 데이터센터를 설계할 때 더 많은 가속 컴퓨팅 옵션을 찾는다. 고객들이 기업용 AI를 부트스트랩(bootstrap) 하는 데 있어 상당한 시간과 비용을 절약할 수 있도록 도움을 주고자 MGX를 개발했다”고 말했다.

제조사는 MGX를 통해 서버 섀시의 가속 컴퓨팅에 최적화된 기본 시스템 아키텍처로 시작한 다음, GPU, DPU, CPU를 선택할 수 있다. 설계 변형은 HPC, 데이터 사이언스, 대규모 언어 모델(LLM), 엣지 컴퓨팅, 그래픽 및 비디오, 기업용 AI, 설계 및 시뮬레이션과 같은 고유한 워크로드를 처리할 수 있다. AI 훈련, 5G와 같은 여러 작업을 단일 시스템에서 처리할 수 있으며, 손쉽게 차세대 하드웨어로 업그레이드할 수 있다. MGX는 또한 클라우드, 엔터프라이즈 데이터센터에 쉽게 통합될 수 있다.

업계 선도 기업들과의 협업

QCT와 슈퍼마이크로는 8월에 공개되는 MGX 설계를 적용한 제품을 최초로 시장에 출시하는 기업이다. 이번에 발표된 슈퍼마이크로의 ARS-221GL-NR 시스템에는 엔비디아 그레이스(Grace) CPU 슈퍼칩(Superchip)이 포함되며, QCT의 S74G-2U 시스템에는 엔비디아 GH200 그레이스 호퍼(Grace Hopper) 슈퍼칩이 포함될 예정이다.

데이터센터는 점점 증가하는 컴퓨팅 기능 및 기후 변화에 대처하기 위한 탄소 배출량 감소 요구사항을 충족하면서 동시에 비용은 절감해야 하는 압박을 받고 있다.

엔비디아의 가속 컴퓨팅 서버는 오랫동안 뛰어난 컴퓨팅 성능과 에너지 효율성을 제공해 왔다. 시스템 제조사는 이제 MGX의 모듈식 설계를 통해 각 고객의 고유한 예산, 전력 공급, 열 설계, 기계적 요구사항을 보다 효과적으로 충족할 수 있다.

다양한 폼팩터로 최대의 유연성 제공

MGX는 다양한 폼팩터에서 작동하며 다음과 같은 현재 및 미래 세대의 엔비디아 하드웨어와 호환된다.

섀시: 1U, 2U, 4U(공냉식 또는 수냉식)

GPU: 최신 H100, L40, L4를 포함한 엔비디아 GPU 전체 포트폴리오

CPU: 엔비디아 그레이스 CPU 슈퍼칩, GH200 그레이스 호퍼 슈퍼칩, x86 CPUs

네트워킹: 엔비디아 블루필드(BlueField)-3 DPU, 커넥트X(ConnectX)-7 네트워크 어댑터

MGX는 엔비디아 제품과의 유연한 다세대 호환성을 제공해 시스템 빌더가 기존 설계를 재사용하고 고가의 재설계 없이 차세대 제품을 쉽게 채택할 수 있도록 하며, 이러한 호환성은 엔비디아 HGX와의 가장 큰 차이점이다. 반면 HGX는 최고 수준의 AI 및 HPC 시스템을 만들기 위해 확장 가능하도록 맞춤화된 NVLink로 연결된 다중 GPU 베이스보드를 기반으로 한다.

가속화를 더욱 촉진하는 소프트웨어

MGX는 하드웨어 외에도 개발자와 기업이 AI, HPC, 기타 애플리케이션을 구축하고 가속화할 수 있는 엔비디아의 전체 소프트웨어 스택에서 지원된다. 여기에는 엔비디아 AI 플랫폼의 소프트웨어 계층인 엔비디아 AI 엔터프라이즈(Enterprise)가 포함된다. 엔비디아 AI 엔터프라이즈는 100개 이상의 프레임워크, 사전 훈련된 모델, 개발 도구를 통해 AI 및 데이터 사이언스를 가속, 완벽하게 지원되는 기업용 AI 개발 및 배포를 제공한다.

MGX는 오픈 컴퓨트 프로젝트(Open Compute Project)와 미국전자산업협회(Electronic Industries Alliance) 서버 랙과 호환돼 엔터프라이즈 및 클라우드 데이터센터에 빠르게 통합될 수 있다.