기업 책임자의 대다수(98%)가 AI의 전략적 중요성을 인식하고 있으며, 약 65%가 투자를 늘릴 계획이라고 답했다. 2026년까지 전 세계 AI 지출은 3,000억 달러에 달할 것으로 예상된다. 또한 국제에너지기구에 따르면, 2026년까지 AI의 전력 사용량은 10배 증가할 것으로 예상된다. 분명한 것은 AI는 환경에 미치는 영향을 최소화하면서 AI의 역량을 극대화해야 한다는 두 가지 과제를 기업에 안겨주고 있다는 점이다.
미국에서만 데이터센터의 전력 소비량은 2030년까지 두 배로 증가해 35GW에 달할 것으로 예상되는데, 이는 주로 AI 기술에 대한 수요 증가에 따른 것이다. 이런 증가는 주로 AI 지원 랙의 배치에 의한 것으로, 이들 랙은 GPU 집약적인 프로세스로 40kW~60kW의 전력을 소비한다.
이런 에너지 문제를 효과적으로 해결하기 위한 세 가지 주요 전략이 있다.
- 학습과 추론 요구사항을 구분하는 데 중점을 두고 AI 워크로드에 적합한 컴퓨팅 리소스를 선택한다.
- 기존 데이터센터 상면 내에서 성능 및 에너지 효율 최적화.
- 생태계 전반의 협업을 통해 지속 가능한 AI 개발을 촉진한다.
AI 추론 워크로드를 위한 CPU와 GPU 비교
일반적인 생각과는 달리, 지속 가능한 AI 프랙티스는 고성능 GPU뿐만 아니라 CPU도 AI 작업 대부분에 적합하다는 것을 보여준다. 예를 들어, AI 컴퓨팅의 85%는 추론에 사용되며 GPU가 필요하지 않다.
AI 추론 작업의 경우 CPU는 성능, 에너지 효율성, 비용 효율성의 균형 잡힌 조합을 제공한다. CPU는 다양하고 덜 집약적인 추론 작업을 능숙하게 처리해 특히 에너지 효율이 높다. 또한 병렬 작업을 처리하고 변동하는 수요에 적응하는 능력은 최적의 에너지 사용을 보장하며, 이는 효율성을 유지하는 데 매우 중요하다. 전력 소비가 훨씬 많은 GPU와는 대조적인데, GPU는 AI 학습에는 탁월하지만 집약적인 작업 사이사이에는 제대로 활용되지 못하는 경우가 많다.
또한 CPU는 에너지 및 비용 지출이 적기 때문에 지속 가능하고 비용 효율적인 운영을 추구하는 기업에서 선호하는 옵션이다. 여기에 CPU 아키텍처에 맞춘 소프트웨어 최적화 라이브러리는 에너지 소비를 크게 줄일 수 있어 이런 이점을 더욱 강화한다. 라이브러리는 AI 추론 작업을 더 효율적으로 실행할 수 있도록 최적화해 연산 프로세스를 CPU의 작동 특성에 맞게 조정함으로써 불필요한 전력 사용을 최소화한다.
마찬가지로 개발자는 CPU에서 AI 성능을 향상시키는 최첨단 소프트웨어 툴을 활용할 수 있다. 이런 툴은 텐서플로우나 ONNX와 같은 일반적인 AI 프레임워크와 원활하게 통합되어 최적의 CPU 성능을 위해 AI 모델을 자동으로 튜닝한다. 이를 통해 배포 프로세스가 간소화될 뿐만 아니라 다양한 하드웨어 플랫폼에 맞춰 수동으로 조정할 필요가 없어 개발 워크플로우가 간소화되고 에너지 소비가 더욱 줄어든다.
마지막으로 모델 최적화는 불필요한 파라미터를 제거해 더욱 간결하고 효율적인 모델을 생성함으로써 이런 소프트웨어 툴을 보완한다. 이 최적화 프로세스는 정확도를 유지할 뿐만 아니라 계산 복잡성을 줄여 연처리에 필요한 에너지를 낮춰준다.
AI 워크로드에 적합한 컴퓨팅 선택하기
기업이 에너지 효율성을 유지하면서 AI의 이점을 최대한 활용하려면, CPU 성능을 특정 AI 우선순위에 전략적으로 맞추는 것이 중요하다.
- AI 우선순위 파악. 사용량과 전략적 중요도 등의 요소를 고려해 기업에 가장 중요한 AI 모델을 정확히 파악하는 것부터 시작한다.
- 성능 요구사항 정의하기. 지연 시간이나 응답 시간과 같은 필수적인 측면에 초점을 맞춘 명확한 성능 기준을 설정해 사용자의 기대치를 효과적으로 충족한다.
- 전문 솔루션 평가. 필요한 특정 유형의 AI에 탁월할 뿐만 아니라 설정된 성능 벤치마크를 충족해 필요한 워크로드를 효율적으로 처리할 수 있는 CPU 솔루션을 찾는다.
- 효율적인 확장. 성능 요구 사항이 해결되면 솔루션의 확장성과 증가하는 요청을 처리할 수 있는 능력을 고려해야 한다. 처리량(초당 추론수)과 에너지 소비의 균형이 가장 좋은 CPU를 선택한다.
- 알맞은 규모의 솔루션. 실제 요구 사항을 평가하지 않고 가장 강력하고 비싼 솔루션을 선택해서는 안된다. 비용 낭비를 피하고 수요 증가에 따라 효율적으로 확장할 수 있도록 인프라의 규모를 적절히 조정하는 것이 중요하다.
- 향후 유연성 고려. 향후 AI 수요나 기술 변화에 잘 적응하지 못할 수 있는 지나치게 전문화된 솔루션은 주의해야 한다. 향후 노후화를 피하기 위해 다양한 AI 작업을 지원할 수 있는 다목적 솔루션을 우선시하는 것이 좋다.
데이터센터는 현재 전 세계 에너지 소비의 약 4%를 차지하고 있으며, AI의 성장에 따라 이 수치는 크게 증가할 것으로 예상된다. 이미 많은 데이터센터에 엄청난 전력을 소비하고 열 제약으로 어려움을 겪는 GPU가 대량으로 배치되어 있다.
예를 들어, 800억 개의 트랜지스터를 갖춘 엔비디아의 H100은 GPU는 전력 소비를 극한까지 끌어올리며, 일부 구성에서는 40kW를 초과하기도 한다. 따라서 데이터센터에서는 하드웨어를 열 전도성 액체에 담그는 침수 냉각 방식을 사용해야 한다. 이 냉각 방식은 열 제거에 효과적이고 전력 밀도를 높일 수 있지만 추가 전력을 소비하므로 이 작업에만 전체 에너지의 10~20%를 할당해야 한다.
반대로 에너지 효율이 높은 CPU는 복잡한 AI 애플리케이션의 급속한 확장으로 인해 급증하는 전력 수요에 대비할 수 있다. 스케일웨이(Scaleway)나 오라클 같은 기업은 기존 GPU에 대한 의존도를 획기적으로 줄이는 CPU 기반 AI 추론 방법을 구현해 이런 트렌드를 주도하고 있다. 이런 변화는 보다 지속 가능한 프랙티스를 촉진할 뿐만 아니라 까다로운 AI 작업을 효율적으로 처리할 수 있는 CPU의 역량을 보여준다.
예를 들어, 오라클은 라마 2 모델과 같이 최대 70억 개의 매개변수가 있는 생성형 AI 모델을 CPU에서 직접 성공적으로 실행했다. 이 접근 방식은 상당한 에너지 효율성과 컴퓨팅 성능 이점을 입증해 과도한 에너지 소비 없이 최신 AI 워크로드를 효과적으로 관리할 수 있는 전례를 제시했다.
성능 및 에너지 요구 사항에 맞는 CPU 매칭
AI 작업을 처리하는 데 있어 CPU의 뛰어난 에너지 효율성을 고려할 때 이런 기술을 기존 데이터센터에 가장 잘 통합하는 방법을 고려해야 한다. 새로운 CPU 기술을 통합하려면 성능과 에너지 효율을 모두 최적화할 수 있도록 몇 가지 요소를 신중하게 고려해야 한다.
- 높은 활용도. 리소스 경합을 피하고 트래픽 병목 현상을 없애는 CPU를 선택해야 한다. 주요 특성으로는 높은 코어수를 들 수 있으며, 이는 부하가 많은 상황에서도 성능을 유지하는 데 도움이 된다. 또한 AI 작업을 매우 효율적으로 처리해 와트당 성능을 향상시키고 전반적인 에너지 절약에 기여한다. 또한 CPU는 상당한 양의 개인 캐시와 단일 쓰레드 코어를 지원하는 아키텍처를 제공해야 한다.
- AI 전용 기능. INT8, FP16, BFloat16과 같은 일반적인 AI 숫자 형식을 지원하는 등 AI 처리를 위해 맞춤화된 기능이 내장된 CPU를 선택해야 한다. 이런 기능을 사용하면 AI 워크로드를 보다 효율적으로 처리하여 성능과 에너지 효율을 모두 향상시킬 수 있다.
- 경제적 고려사항. CPU 기반 솔루션으로 업그레이드하는 것이 GPU 기반 시스템을 유지하거나 확장하는 것보다 더 경제적일 수 있으며, 특히 CPU의 낮은 전력 소비와 냉각 요구사항을 고려할 때 더욱 그렇다.
- 통합의 단순성. CPU는 데이터센터 기능을 업그레이드할 수 있는 간단한 경로를 제공한다. 고성능 GPU를 통합하기 위한 복잡한 요구 사항과 달리 CPU는 네트워킹 및 전력 시스템을 포함한 기존 데이터센터 인프라에 쉽게 통합할 수 있어 전환을 간소화하고 광범위한 인프라 변경의 필요성을 줄일 수 있다.
이런 주요 고려사항에 중점을 두면, 데이터센터의 성능과 에너지 효율성의 균형을 효과적으로 유지해 미래의 AI 애플리케이션의 연산 수요를 충족할 수 있는 비용 효율적이고 미래 지향적인 인프라를 확보할 수 있다.
AI를 위한 CPU 기술 발전
AI 플랫폼 연합과 같은 산업 단체는 협업을 통해 에너지 효율과 성능을 향상시키는 데 중점을 두고 AI 애플리케이션용 CPU 기술을 발전시키는 데 중요한 역할을 하고 있다. 이런 연합에는 CPU, 가속기, 서버, 소프트웨어 등 기술 스택의 여러 부문에 속한 다양한 업체가 모여 특정 AI 과제를 해결하는 상호운용 가능한 솔루션을 개발한다. 이런 작업은 엣지 컴퓨팅에서 대규모 데이터센터에 이르기까지 광범위하게 이뤄지며, AI 배포가 지속 가능하고 효율적으로 이루어질 수 있도록 보장한다.
이런 협업은 컴퓨터 비전, 비디오 처리, 생성형 AI 등 다양한 AI 작업에 최적화된 솔루션을 개발하는 데 특히 효과적이다. 또한 여러 기업의 전문 지식과 기술을 모아 최적의 성능과 뛰어난 에너지 효율성을 제공하는 동급 최고의 솔루션을 만드는 것을 목표로 한다.
AI 플랫폼 얼라이언스와 같은 협력은 AI 워크로드의 수요를 효율적으로 처리하도록 특별히 설계된 새로운 CPU 기술과 시스템 설계의 개발을 촉진한다. 이런 혁신은 상당한 에너지 절감으로 이어지며 AI 애플리케이션의 전반적인 성능을 향상시켜 기술 발전을 주도하는 데 있어 업계 전반의 협력이 가져다주는 실질적인 이점을 강조한다.
*Jeff Wittich는 암페어 컴퓨팅(Ampere Computing)의 최고 제품 책임자다.
editor@itworld.co.kr