자세히 보기

Anirban Ghoshal
Senior Writer

구글, 6번째 버전 TPU 칩 ‘트릴리움’ 공개

구글의 텐서 프로세싱 유닛(TPU) 6번째 버전인 트릴리움(Trillium)은 피크 성능과 메모리 대역폭에서 이전 버전인 TPUv5보다 거의 5배 더 효율적이라고 구글은 밝혔다.

구글은 연례 I/O 컨퍼런스에서 젬마(Gemma) 및 제미나이(Gemini)와 같은 기초 대형 언어 모델을 훈련하고 실행하기 위한 새로운 칩인 트릴리엄을 공개했다. 트릴리움은 구글 텐서 프로세싱 유닛(TPU)의 6번째 버전으로, 이전 버전인 TPU v5보다 에너지 효율이 67% 더 높고 속도가 거의 5배 빠르다고 회사 측은 설명했다. 

회사는 최첨단 AI 관련 워크로드용으로 설계한 슈퍼컴퓨팅 아키텍처인 AI 하이퍼컴퓨터에 트릴리움을 사용할 계획이며, 연말까지 관련 기업들에게 이 칩을 제공할 예정이다.

“트릴리움 TPU는 TPU v5e에 비해 칩당 피크 컴퓨팅 성능이 4.7배 향상됐다. HBM(High Bandwidth Memory) 용량과 대역폭을 두 배로 늘리고 인터칩 인터커넥트(ICI) 대역폭도 TPU v5e보다 두 배로 늘렸다”라고 구글의 시스템 및 클라우드 AI 총괄 매니저인 아민 바닷은 블로그(국문 번역본 링크는 여기)에 밝혔다.

바닷에 따르면 연산 성능의 향상은 매트릭스 곱셈 유닛(MXU)의 크기를 확장하고 클럭 속도를 높임으로써 달성됐다. 이를 통해 차세대 기초 모델을 더 빠르게 훈련하고 지연 시간을 줄이고 비용을 절감하여 실행할 수 있다.

MXU군은 TPU 칩 아키텍처의 일부다. 일반적으로 TPU 칩에는 하나 이상의 텐서코어가 포함되며, 각 텐서코어는 하나 이상의 MXU, 벡터 유닛, 스칼라 유닛으로 구성된다. 트릴리움 칩은 단일 고대역폭, 저지연 포드에서 최대 256개의 TPU까지 확장할 수 있다고 바댓은 덧붙였다.

트릴리움의 다른 기능으로는 데이터플로우 프로세서와 고대역폭 메모리(HBM) 지원 확대가 있다. 데이터플로우 프로세서는 추천 모델 내 임베딩을 활용하는 모델을 가속화하며, HBM 지원 확대는 더 많은 가중치와 더 큰 키-값 캐시를 가진 더 큰 모델 작업을 가능케 한다. 

더 많은 슬라이스
또한, 트릴리움에는 구글의 멀티슬라이스 기술이 제공된다. 구글은 작년 8월 TPU v5e를 공개하면서 이 기술을 프리뷰로 선보인 바 있다. 멀티슬라이스 기술을 통해 기업 사용자는 물리적 TPU 포드의 경계를 넘어 최대 수만 개의 클라우드 TPU v5e 또는 TPU v4 칩까지 AI 모델을 쉽게 확장할 수 있다고 회사 측은 설명했다.

이 기술이 출시되기 전에는 TPU를 사용한 트레이닝 작업이 단일 TPU 칩 슬라이스로 제한됐다. 결과적으로 가장 큰 작업의 크기가 TPU v4의 경우 최대 3,072개의 칩 슬라이스로 제한됐다. 
.
바닷은 “멀티슬라이스를 사용하면 개발자는 단일 포드 내에서 또는 데이터센터 네트워크를 통해 여러 포드에 걸쳐 칩 간 상호 연결(ICI)을 통해 워크로드를 최대 수만 개까지 확장할 수 있다”라고 지난해 동료 마크 로마이어와 공동 작성한 블로그 게시물에서 설명했다. 

오픈소스 지원
바닷은 또 트릴리움이 JAX, PyTorch/ XLA, Keras 3와 같은 오픈소스 라이브러리를 지원할 예정이라고 밝혔다. 그는 “JAX와 XLA를 지원한다는 것은 이전 세대의 TPU를 위해 작성된 선언적 모델 설명이 트릴리움 TPU의 새로운 하드웨어 및 네트워크 기능에 직접 매핑된다는 것을 의미한다”라며, 구글이 모델 훈련 및 서비스 간소화를 위해 Optimum-TPU의 허깅 페이스와 제휴를 맺었다고 덧붙였다.

구글의 TPU 첫 번째 버전은 2016년에 등장했다. 이제는 마이크로소프트, AWS, IBM을 비롯한 대부분의 하이퍼스케일러들이 자체 칩을 개발하고 있는 상태다.  AWS는 트래니움(Tranium) 및 인터렌시아(Inferentia) 가속기를 꾸준히 개발하고 있으며, 마이크로소프트는 작년에 코발트(Cobalt )CPU 및 마이어(Maia) 가속기 칩을 출시했다. dl-ciokorea@foundryco.com