엔비디아, 하이퍼스케일 데이터센터용 딥 러닝 추론 역량 확대
뉴스 본문
엔비디아 텐서RT 4 공개, 텐서플로 통합, 칼디 음성 가속화 및 ONNX 지원 확대 발표
GPU 추론, CPU 대비 최대 190배 이상 빨라
AI컴퓨팅 기술 분야의 선두주자인 엔비디아는 GTC 2018에서 새로운 기술 및 파트너십을 연달아 발표하며, 이를 통해 엔비디아의 추론 역량에 대한 잠재 시장 규모가 전 세계 3천 만 대의 하이퍼스케일 서버로 확대되는 동시에 딥 러닝 기반 서비스의 비용은 대폭 낮아질 것이라고 밝혔다.
GTC 2018 기조연설에서 엔비디아의 창립자 겸 CEO인 젠슨 황(Jensen Huang)은 데이터센터 및 자동차 애플리케이션 분야는 물론, 로봇과 드론 등 임베디드 장치에서 음성 인식, 자연어 처리, 추천 시스템 및 이미지 인식을 지원하게 됨에 따라 딥 러닝 추론을 위한 GPU 가속이 이 시장의 관심을 받게 된 과정에 대해 자세히 설명했다.
엔비디아는 자사의 텐서RT(TensorRT) 추론 소프트웨어의 신규 버전을 선보이며, 구글의 인기 프레임워크인 텐서플로(TensorFlow)에 텐서RT가 통합된다고 발표했다. 아울러 음성 인식 분야에서 가장 각광받고 있는 프레임워크인 칼디(Kaldi)가 GPU용으로 최적화됐다고 전했다. 아마존, 페이스북, 마이크로소프트 등 파트너들과의 긴밀한 협업을 통해 개발자들은 ONNX 및 WinML을 이용해 GPU 가속의 이점을 적극 활용할 수 있게 됐다.
엔비디아의 가속 컴퓨팅 담당 부사장 겸 제너럴 매니저인 이안 벅(Ian Buck)은 “프로덕션 딥 러닝 추론을 위한 GPU 가속 기술로, 최대 규모의 뉴럴 네트워크도 실시간으로 최저 수준의 비용에서 구동할 수 있게 됐다”며 “더 많은 지능형 애플리케이션 및 프레임워크에 대한 지원을 빠르게 확대해, 이제 딥 러닝의 품질도 향상시킬 수 있고 3천만 대에 이르는 하이퍼스케일 서버의 비용도 줄일 수 있게 됐다”고 말했다.
텐서RT, 텐서플로 통합
엔비디아는 다양한 종류의 애플리케이션에서 딥 러닝 추론을 가속화할 수 있는 텐서RT 4(TensorRT 4) 소프트웨어를 공개했다. 텐서RT는 상당히 정확한 수준으로 INT8 및 FP16 네트워크 처리를 진행해 데이터센터의 비용을 최대 70% 절감할 수 있다.
텐서RT 4는 트레이닝을 거친 뉴럴 네트워크를 하이퍼스케일 데이터센터, 임베디드 및 자동차용 GPU 플랫폼에서 신속하게 최적화, 검증 및 배포하는 데 사용될 수 있다. 컴퓨터 비전, 뉴럴 네트워크 기반 기계 번역, 자동 음성 인식, 음성 합성 및 추천 시스템 등 일반적인 응용 분야에서 CPU 대비 최대 190배 빠른 딥 러닝 추론 능력을 제공한다.
보다 능률적으로 개발 작업을 진행하기 위해 엔비디아와 구글의 엔지니어들은 텐서RT를 텐서플로 1.7에 통합, GPU에서 딥 러닝 추론 애플리케이션을 보다 편리하게 구동하도록 했다.
구글의 엔지니어링 담당 디렉터인 라자트 몽가(Rajat Monga)는 “텐서플로팀은 딥 러닝 관련 업계에서 엔비디아 GPU를 통해 최상의 성능을 누릴 수 있도록 엔비디아와 긴밀하게 협업하고 있다. 텐서플로와 엔비디아 텐서RT의 통합으로, 이제 볼타(Volta) 텐서 코어 기술이 적용된 엔비디아 딥 러닝 플랫폼에서 (저지연 목표 치 내 일반적인 GPU 실행과 비교해) 최대 8배 높은 추론 처리 속도를 구현하게 되며 텐서플로 내에서 최고 성능의 GPU 추론이 가능해졌다”고 말했다.
엔비디아는 세계적인 음성 인식 프레임워크인 칼디가 GPU 상에서 더욱 빠른 성능을 제공할 수 있도록 최적화를 실시했다. GPU 음성 인식 가속으로 소비자는 더욱 정확하고 유용한 가상 비서 서비스를 이용할 수 있으며 데이터센터 운영자들의 배포 비용은 낮아질 전망이다.
광범위한 업계 지원
전 세계 다양한 기업의 개발자들이 텐서RT를 이용해 데이터에서 새로운 인사이트를 발견하고 있으며, 기업체와 소비자들에게 지능형 서비스를 배포하고 있다.
엔비디아 엔지니어들은 카페 2(Caffe 2), 체이너(Chainer), CNTK, MX넷(MXNet) 및 파이토치(Pytorch) 등 ONNX 프레임워크를 이용하는 개발자들이 편리하게 엔비디아 딥 러닝 플랫폼을 배포할 수 있도록 아마존, 페이스북, 마이크로소프트와 긴밀하게 협력해왔다.
SAP의 머신 러닝 부문 총괄인 마커스 노가(Markus Noga)는 “엔비디아 테슬라 V100(NVIDIA Tesla V100) GPU에서 우리의 딥 러닝 기반 추천 애플리케이션을 구동하며 텐서RT를 평가해보게 되었는데, 추론 속도 및 처리량이 CPU 기반 플랫폼과 비교해 45배 가량 높은 것으로 나타났다. 텐서RT가 우리의 엔터프라이즈 고객들에게 상당한 생산성 향상으로 기여할 것으로 본다”고 말했다.
트위터 코텍스(Twitter Cortex)의 책임자인 니콜라스 쿰차츠키(Nicolas Koumchatzky)는 “GPU를 이용한 덕분에 우리 플랫폼 상에서 미디어를 인식할 수 있게 되었는데, 이를 통해 미디어 딥 러닝 모델의 트레이닝 시간이 상당히 줄어든 것은 물론, 추론 시간 동안 라이브 동영상을 실시간으로 인식하게 하는 것 또한 가능하다”고 말했다.
마이크로소프트 또한 최근 Windows 10 애플리케이션에 대한 AI 지원을 발표했다. 엔비디아는 마이크로소프트와 손잡고 GPU 가속 툴을 개발해 개발자들이 Windows 애플리케이션에 더 많은 지능형 기능을 탑재할 수 있도록 지원할 방침이다.
엔비디아는 또한 멀티클라우드 GPU 클러스터에서 엔터프라이즈 추론 배포를 촉진하기 위해 쿠버네티스(Kubernetes)에 대한 GPU 가속 지원을 발표했다. 엔비디아는 쿠버네티스 생태계를 지원하기 위해 오픈 소스 커뮤니티에 GPU 기능 강화를 기여하고 있다.
이외에도, 매트랩(MATLAB) 소프트웨어의 개발사인 매스웍스(MathWorks)가 오늘 매트랩에 텐서RT를 통합한다고 발표했다. 공학자들과 과학자들은 이제 엔비디아 드라이브(NVIDIA® DRIVE™), 젯슨(Jetson™), 및 테슬라(Tesla®) 플랫폼에 대한 고성능 추론 엔진을 매트랩에서 자동 생성할 수 있다.
데이터센터를 위한 추론 역량
데이터센터 관리자들은 보유 서버의 생산성을 극대화하기 위해 성능과 효율성 간의 균형을 유지하고자 노력한다. 엔비디아 테슬라 GPU 가속 서버는 딥 러닝 추론 애플리케이션 및 서비스에 대해 일부 CPU 서버를 대체할 수 있어 중요한 랙 서버의 공간을 절감할 수 있으며 에너지 및 냉각을 위한 요구사항도 줄일 수 있다.
자율주행차량, 임베디드를 위한 추론 역량
텐서RT는 엔비디아 드라이브 자율주행차량 및 엔비디아 젯슨 임베디드 플랫폼에 적용될 수 있다. 모든 프레임워크 상의 딥 뉴럴 네트워크를 데이터센터 내 엔비디아 DGX(NVIDIA DGX™) 시스템에서 트레이닝을 거쳐 로봇부터 자율주행차량에 이르기까지 모든 종류의 장치에 배포해 엣지 장치에서의 실시간 추론을 구현할 수 있다.
텐서RT를 통해 개발자들은 추론 배포를 위한 성능 조절이 아닌 참신한 딥 러닝 기반 애플리케이션 개발에 집중할 수 있다. 개발자들은 텐서RT를 이용해 INT8 또는 FP16 정밀도를 활용하는 추론을 매우 빠른 속도로 구현할 수 있어 임베디드 및 자동차 플랫폼에서의 물체 감지 및 경로 계획 등의 기능을 구현하는데 매우 중요한 요소인 지연성을 대폭 줄일 수 있다.
텐서RT 4 RC 버전에 대한 자세한 사항은 웹페이지에서 확인할 수 있다.
최신뉴스
-
뉴스카테고리
양효정기자 조회421회 댓글0건 작성일 -
뉴스카테고리
양효정기자 조회415회 댓글0건 작성일 -
뉴스카테고리
양효정기자 조회342회 댓글0건 작성일 -
뉴스카테고리
양효정기자 조회413회 댓글0건 작성일
댓글(0)
등록된 댓글이 없습니다.