자세히 보기

Martin Heller
Contributing Writer

리뷰 | VM웨어 위에서 AI를!··· 엔비디아 ‘AI 엔터프라이즈’ 살펴보기

VM웨어 환경에 최적화된 이 엔비디아의 AI 소프트웨어 스택은 그야말로 강력한 대안이다. 여전히 머신러닝을 위해 AWS와 애저, 구글 클라우드를 이용할 수 있겠지만, 어느 정도 규모가 되는 기업이라면 엔비디아의 'AI 엔터프라이즈'를 검토할 만한 이유가 충분하다. 엔비디아 런치패드를 이용하면 시험 테스트도 그리 어렵지 않다.

엔비디아 AI 엔터프라이즈(Nvidia AI Enterprise)는 다양한 기능을 갖춘 엔드투엔드 AI 소프트웨어 스택이다. 데이터를 정화하고 훈련을 위해 준비하고, 신경망 훈련을 수행하고, 좀더 유효한 형식으로 모델을 변환해 추론 서버에 배치하는 업무 등을 수행한다.

아울러 엔비디아 AI 소프트웨어 스위트는 쿠버네티스를 위한 GPU, DPU(Data Processing Unit), 가속 네트워크를 지원한다(아래 그림 상의 클라우드 네이티브 전개 계층). 아울러 VM웨어 v스피어 탄주(VMware vSphere with Tanzu) 상에 있는 공유 기기의 최적화를 지원한다. 탄주 베이직(Tanzu Basic)은 v스피어에서 쿠버네티스를 실행하고 관리하는 데 도움을 준다. 참고로 VM웨어 탄주 랩(VMware Tanzu Labs)은 피보틀 랩(Pivotal Labs)의 새 명칭이다.

엔비디아 런치패드(Nvidia LaunchPad)는 전체 엔비디아 AI 스택을 사설 컴퓨트 인프라에서 실행하도록 허용하는 단기적 시험 프로그램이다. 엔비디아 런치패드는 엔비디아 AI 엔터프라이즈를 위한 정연한 랩을 제공하고, 엔비디아 전문가 및 훈련 모듈로의 접근 기능을 내장하고 있다.

엔비디아 AI 엔터프라이즈의 의미는 AI 모델 훈련 및 배치 작업이 좀더 자유로와질 수 있다는 것이다. 적어도 대형 기술 기업에게는 그렇다. Ph-D 수준의 데이터 과학자와 GPU로 가득한 데이터센터를 보유한 기업이라면, AI 엔터프라이즈를 통해 경영, 제품 개발, 마케팅, HR 등의 용도에 맞춰 AI 모델을 훈련시키고 배치할 수 있다. 

엔비디아 AI 엔터프라이즈 스택. 하단에는 가속 하드웨어가 있고, 상단에는 데이터 과학 툴 및 프레임워크가 있다.

엔비디아 AI 엔터프라이즈의 구성 요소 
엔비디아 AI 엔터프라이즈는 AI 솔루션의 개발 및 배치를 위한 종합적인 인프라 계층을 제공한다. 사전 훈련된 모델, 그리고 데이터 준비를 위한 GPU 인식 소프트웨어(RAPIDS), 그리고 텐서플로우(TensorFlow), 파이토치(PyTorch) 등 GPU 인식 딥러닝 프레임워크, 그리고 추론을 위해 모델을 보다 효율적 형태로 변환하는 소프트웨어(TensorRT), 그리고 확장성 있는 추론 서버(Triton) 등이다.

사전 훈련된 모델의 라이브러리는 엔비디아 AI 엔터프라이즈 소프트웨어 스위트와 함께 사용되는 엔비디아 NGC 카탈로그를 통해 이용할 수 있다. 그리고 엔비디아 AI 엔터프라이즈 텐서플로우 컨테이너(Nvidia AI Enterprise TensorFlow Containers) 등을 이용해 데이터베이스 상에서 AI 모델을 정밀하게 조율할 수 있다. 제공되는 딥러닝 프레임워크는 이의 오픈소스 버전을 기반으로 하지만 엔비디아 GPU에 맞춰 최적화됐다. 

엔비디아 AI 소프트웨어 스택 흐름도. 좌하단의 하드웨어 메모는 훈련에 관한 것이고, 우하단의 메모는 추론에 관한 것이다.

엔비디아 AI 엔터프라이즈 및 런치패드 하드웨어 
엔비디아는 DGX 시스템을 꾸준히 강조해왔다. DGX 시스템은 4~16개의 A100 GPU 를 다양한 폼팩터로 가지고 있다. 예를 들어 타워형 워크그룹 기기, 데이터센터를 위해 설계된 랙 기반 시스템 등이다. 

엔비디아는 대규모 배치를 감안한 DGX에 주력하고 있다. 그러나 런치패드 프로그램 하에서 엔비디아 AI 엔터프라이즈를 시험할 수 있도록 상용 서버로 구성된 1U ~ 2U 랙 마운트 시스템도 제공하고 있다.

이 상용 서버는 2개의 인텔 제온 골드 6354 CPU, 하나의 엔비디아 T4 또는 A30 GPU, 엔비디아 DPU에 기반한다. 세계적으로 9곳의 에퀴닉스(Equinix) 코로케이션 지역에는 런치패드 트라이얼 자격이 있는 엔비디아 고객이 사용할 이들 랙-마운트 서버가 20대씩 배치되어 있다.

엔비디아는 엔비디아 AI 엔터프라이즈를 기업에서 배치할 때에도 동일한 시스템을 권고한다. 시스템은 구매 가능하고 임대 또는 리스로 이용할 수도 있다. 

런치패드 및 엔비디아 AI 엔터프라이즈를 지원하는 서버 하드웨어. 런치패드 서버는 모두 Dell R750이지만, 이는 선호라기보다는 가용성의 문제였다. 상기 리스트는 엔비디아 AI 엔터프라이즈를 위해 엔비디아가 지원하는 적정 제조 서버를 공급하는 제조사다.

엔비디아 AI 엔터프라이즈 시험 사용해보기
엔비디아는 3가지 시험 사용 프로그램을 제공한다. 그저 맛만 보겠다는 AI 실무자라면 뉴욕시의 택시 요금을 예측하는 것과 BERT 텐서플로우 모델을 시험하는 것을 포함하는 시험 사용 데모가 있다. 시험 사용 시 1시간 정도의 직접 작업이 필요하고 48시간의 액세스가 제공된다.

런치패드는 약간 더 광범위하다. AI 실무자와 IT 직원에게 실습 랩을 제공하고, 이는 약 8시간의 직접 작업이 필요하다. 2주간의 시스템 액세스가 제공되고, 선택적으로 4주까지 연장될 수 있다.  

3번째 시험 사용 프로그램은 90일 온프레미스 평가이다. POC를 수행하기에 충분한 기간이다. 고객은 VM웨어 v스피어 7u2를 가진 (또는 그 이후 버전) 엔비디아 인증 시스템을 구매하거나 임대해야 하고, 엔비디아는 무료 평가 라이선스를 공급한다. 

엔비디아 AI 엔터프라이즈를 시험하는 방법은 3가지가 있다. 48시간 동안 액세스할 수 있는 1시간 테스트 시험 데모, 2주 동안 액세스할 수 있는 엔비디아 런치패드 8시간 랩, 그리고 온-프레미스 사용을 위한 90일 평가 라이선스이다.

IT 관리자를 위한 엔비디아 런치패드 데모 
필자는 IT 관리보다 데이터 과학에 더 관심이 있기 때문에 실습 관리 랩의 데모는 대충 살펴보기만 했다. 아래 나오는 첫 번째 스크린샷은 랩 설명서의 시작 부분이다. 두 번째 스크린샷은 VM웨어 v스피어 클라이언트 웹 인터페이스의 페이지이다. 엔비디아에 따르면 엔비디아가 교육시킨 IT 관리자는 대다수가 v스피어와 윈도우에 이미 숙달된 상태였지만 우분투 리눅스는 그렇지 않았다. 

이 화면은 VM웨어 v스피어를 이용해 엔비디아 AI 엔터프라이즈 가상 머신을 생성하는 설명서이다. IT 관리자 교육의 일부이다.

이 화면은 VM웨어 v스피어에서 강의 목적으로 생성된 엔비디아 AI 엔터프라이즈 가상 머신에 대한 하드웨어 개요이다. 

AI 실무자를 위한 런치패드 랩 
필자는 하루에 걸쳐 AI 실무자를 위한 런치패드를 검토했다. 이는 주로 ‘주피터 노트북(Jupyter Notebook)’으로 전달된다. 엔비디아 관계자는 이게 400 레벨 교재라고 했다. 코드를 필자가 직접 작성해야 했다면 분명 그 정도 수준이었을 것이다. 코드는 이미 모두 작성된 상태였고, 훈련을 거친 기본 BERT 모델은 정밀 교정만 거치면 된다. 정밀 교정을 위한 제반 훈련 및 테스트 데이터는 SQuAD(Stanford Question Answering Database)로부터 제공되었다.

서버 내의 런치패드 전용 A30 GPU는 필자가 정밀 교정 단계에 도달했을 때 작업을 수행했고, 97분이 걸렸다. 이 GPU가 없다면 시간이 훨씬 더 걸렸을 것이다. 예를 들어 위키피디아에 관해 BERT 모델을 처음부터 훈련시킨다면 이는 여러 GPU와 긴 시간을 요하는 대형 작업이다(아마 몇 주가 걸릴 것이다).

이 페이지의 윗부분은 주피터 노트북으로 이용자를 이동시키고, 이는 고객 서비스를 위한 BERT 모델을 정밀 교정한다. 아랫부분은 훈련된 모델을 추론 서버로 ‘내보내기’하는 방법을 설명한다. 한편, 정밀 교정 단계 후 커널을 닫지 않으면 ‘내보내기’ 단계는 ‘mysterious error tracebacks’와 함께 실패할 것이다. 필자는 이를 직접 체험했다.

이는 AI 프랙티셔너 과정의 1 단계를 구현하는 주피터 노트북의 시작 부분이다. 이는 단계 3에서 다운로드 된 사전-훈련된 BERT 텐서플로우 모델을 이용한다. 그 후에는 단계 2에서 다운로드 된 작고 집중된 데이터세트에 맞춰 이를 정밀 교정한다. 

이 단계는 텐서플로우를 이용해 예제 문장을 토큰 형식으로 변환한다. CPU 상에서 실행되는 데 몇 분이 걸린다. 

정밀 교정은 A30 GPU를 이용할 때 약 90분이 걸린다. 여기는 훈련의 시작 부분이다. ‘estimator.train(…)’ 호출에서 시작한다. 

정밀 교정 훈련 단계가 마침내 끝났다. 총 5,838초가(97분) 소요되었다. 시작 오베헤드에 약 4분이 소비되었다. 

주피터 노트북은 추론 테스트 및 평가 단계로 이어진다. 둘 다 정밀 교정을 거친 텐서플로우 BERT 모델을 이용한다. 이 단계 후 주피터 노트북을 종료하고 트리톤 추론 서버를 VM에서 시작한 후 주피터 콘솔로부터 트리톤 서버를 테스트한다. 

전체적으로 보았을 때 엔비디아 AI 엔터프라이즈는 AI 문제에 대처하는 대단히 우수한 하드웨어/소프트웨어 패키지다. 그리고 런치패드는 엔비디아 AI 엔터프라이즈에 숙달되는 편리한 방법이다. 

필자는 딥러닝 소프트웨어가 엔비디아 암페어 아키텍처 GPU에서 이루어진 최근의 혁신들, 예를 들어 혼합 정밀 계산 및 텐서 코어 등을 능숙히 활용하는 것을 보고 매우 놀랐다. 엔비디아 서버 인스턴스 상에서 엔비디아 AI 엔터프라이즈 실습 랩을 시험하는 일이 필자의 다른 경험보다 훨씬 더 좋았다. 다시 말해 필자 본인의 하드웨어 및 클라우드 VM/AI 서비스 상에서 텐서플로우 및 파이토치 예제를 실행하는 것보다 나은 경험이었다.

대형 퍼블릭 클라우드는 예외 없이 엔비디아 GPU, TPU(구글), FPGA(애저)로의 액세스를 제공한다. 또한 예를 들어 훈련을 위한 (AWS EC2 DL1 인스턴스 상에서) 하바나 가우디(Habana Gaudi) 칩, 추론을 위한 (아마존 EC2 Inf1 인스턴스 상에서) AWS 인퍼렌시아(AWS Inferetia) 칩 등 커스텀 가속기를 제공한다. 

심지어 구글 코랩(Google Colab)에서 무료로 TPU와 GPU에 액세스할 수 있다. 클라우드 사업자들은 텐서플로우, 파이토치 버전들, 그리고 그 외 자사 클라우드에 최적화된 프레임워크 또한 제공한다. 

엔비디아 런치패드에 액세스할 수 있고 이를 성공적으로 테스트할 수 있다고 하자. 다음 단계는 경영진의 동의와 지지를 받아 회사에 높은 가치를 지닌 AI 애플리케이션의 개념 증명을 하는 것임이 거의 확실하다. 

암페어 등급 GPU를 가진 소형 엔비디아 인증 서버를 임대한 후 엔비디아 AI 엔터프라이즈 무료 90일 평가 라이선스를 활용한다면 최소의 비용과 위험으로 POC를 달성할 수 있을 것이다.  

엔비디아 AI 엔터프라이즈를 위한 런치패드 요약
엔비디아 AI 엔터프라이즈는 AI 문제에 대처하는 데 있어 대단히 우수한 하드웨어/소프트웨어 패키지이고, AWS, 마이크로소프트 애저, 구글 클라우드의 AI 및 머신러닝 서비스의 위력적인 대안이다. 아울러 런치패드는 엔비디아 AI 엔터프라이즈에 숙달되는 편리한 방법이다. 

장점 
• 최신 엔비디아 GPU 이용 
• 1U ~ 2U 폼팩터 서버 
• 첨단 AI 소프트웨어 
• 우수한 하드웨어-소프트웨어 통합 
• 우수한 실습 랩 

단점 
• 2주에 불과한 시험 사용 기간(2주 연장 가능_
• 엔비디아 생태계에 속박되기 쉬움 
dl-ciokorea@foundryco.com

Martin Heller

Martin Heller is a contributing writer at InfoWorld. Formerly a web and Windows programming consultant, he developed databases, software, and websites from his office in Andover, Massachusetts, from 1986 to 2010. From 2010 to August of 2012, Martin was vice president of technology and education at Alpha Software. From March 2013 to January 2014, he was chairman of Tubifi, maker of a cloud-based video editor, having previously served as CEO.

Martin is the author or co-author of nearly a dozen PC software packages and half a dozen Web applications. He is also the author of several books on Windows programming. As a consultant, Martin has worked with companies of all sizes to design, develop, improve, and/or debug Windows, web, and database applications, and has performed strategic business consulting for high-tech corporations ranging from tiny to Fortune 100 and from local to multinational.

Martin’s specialties include programming languages C++, Python, C#, JavaScript, and SQL, and databases PostgreSQL, MySQL, Microsoft SQL Server, Oracle Database, Google Cloud Spanner, CockroachDB, MongoDB, Cassandra, and Couchbase. He writes about software development, data management, analytics, AI, and machine learning, contributing technology analyses, explainers, how-to articles, and hands-on reviews of software development tools, data platforms, AI models, machine learning libraries, and much more.

이 저자의 추가 콘텐츠