새롭게 출시된 AI 추론 서비스를 통해 기업은 대규모 언어 모델(LLM)을 지원하는 실시간 AI 추론 애플리케이션을 엔비디아 L4 GPU에서 실행할 수 있게 되었다.
구글 클라우드는 관리형 컴퓨팅 서비스인 ‘클라우드 런’에 LLM을 지원하는 실시간 AI 추론 애플리케이션을 엔비디아 L4 GPU에서 실행할 수 있는 새로운 기능을 추가했다고 22일 밝혔다. 이 새로운 기능은 추론에 필요한 컴퓨팅 시간을 가속화하고 비용을 절감하는 데 도움이 될 뿐만 아니라 엔비디아 GPU의 지원을 통해 클라우드 런의 기능을 향상시킬 수 있어 개발자에게 중요한 의미를 갖는다.
2019년 4월에 처음 공개된 클라우드 런은 HTTP 요청으로 호출 가능한 상태 무상태(Stateless) 컨테이너를 실행할 수 있는 서비스다. 관리형 또는 서버리스 컴퓨팅 서비스이기도 한 클라우드 런은 구글 쿠버네티스 엔진(Google Kubernetes Engine, GKE)에서도 사용할 수 있다. 개발자는 관리형 쿠버네티스 클러스터에서 컨테이너화된 HTTP 워크로드를 실행할 수 있다.
클라우드 런은 일정 시간 동안 항상 실행되는 일반적인 클라우드 인스턴스와는 달리, 온디맨드 방식으로 계산이나 워크로드를 실행할 수 있어 개발자 사이에서 인기가 높았다. AI 관련 워크로드를 서버리스 서비스에서 실행하려는 수요가 증가하면서 구글은 클라우드 런에 GPU 지원을 추가한 것으로 보인다.
전문가에 따르면, GPU 지원과 서버리스 서비스의 조합은 AI 워크로드를 실행하려는 기업에게 큰 이점을 제공한다. 다시 말해 클라우드 런을 사용하면 하드웨어 컴퓨팅 자원을 온프레미스로 배치할 필요가 없으며, 일반적인 클라우드 인스턴스를 실행시키는 데 소요되는 비용도 절약할 수 있다.
구글은 블로그를 통해 “앱을 사용하지 않을 때는 실행 중인 인스턴스 수를 0으로 자동 줄이므로 비용이 청구되지 않는다”라고 소개했다.
구글은 이 새로운 기능을 통해 개발자가 맞춤형 챗봇이나 즉석 문서 요약을 구축하기 위해 구글의 개방형 젬마(Gemma)(2B/7B) 모델 또는 메타의 라마(Llama) 3(8B)와 같은 경량 오픈 모델을 사용하여 실시간 추론을 수행할 수 있다고 설명했다. 여기에 급격하게 증가한 사용자 트래픽을 처리하는데도 유용하다고 밝혔다.
구글에 따르면, 맞춤형 이미지 생성하는 AI 모델을 제공하거나 사용자 요청이 없으면 자동으로 리소스 사용을 줄이거나 완전히 멈추게 할 때도 클라우드 런이 유용하다. 온디맨드 이미지 인식, 동영상 트랜스코딩 및 스트리밍, 3D 렌더링과 같은 컴퓨팅 집약적인 작업 속도를 높일 때도 활용하면 좋다.
그러나 주의할 점도 있다. 우선, 기업들은 서버리스 서비스에서 흔히 발생하는 ‘콜드 스타트(Cold Start)’ 현상에 대해 걱정할 수 있다. 콜드 스타트란 서비스를 실제로 실행하기 전에 로드하는 데 필요한 시간을 말한다. 이는 지연 시간과 직접적인 관계가 있어 기업에게 중요한 문제다. 예를 들어, 기업 애플리케이션에서 LLM이 사용자 질문에 답변하는 데 걸리는 시간에 직접적인 영향을 미칠 수 있다.
구글은 이 문제에 대해 대비한 것으로 보인다. 구글은 블로그를 통해 “드라이버가 사전 설치된 L4 GPU가 연결된 클라우드 런 인스턴스는 약 5초 후에 시작되며, 이 시점에서 컨테이너에서 실행 중인 프로세스가 GPU를 사용하기 시작할 수 있다. 그런 다음 프레임워크와 모델을 로드하고 초기화하는 데 몇 초가 더 필요할 것”이라고 설명했다.
구글은 아예 여러 경량 모델의 콜드 스타트 시간을 공개했다. 올라마(Ollama) 프레임워크를 사용하는 젬마 2b, 젬마2 9b, 라마2 7b/13b, 라마3.1 8b 모델의 콜드 스타트 시간은 11초에서 35초 사이다. 이는 인스턴스를 0에서 시작하고, GPU에 모델을 로드한 후, LLM이 첫 단어를 반환하는 데 걸리는 시간을 측정한 것이다. 클라우드 런에서 지원되는 다른 프레임워크에는 vLLM과 파이토치(PyTorch)가 있다. 클라우드 런은 엔비디아 NIM을 통해서도 배포할 수 있다.
dl-ciokorea@foundryco.com