지멘스 EDA(Digital Industry Software) 사업부가 애플리케이션별 집적 회로(ASIC) 및 시스템 온 칩(SoC)에서 신경망 가속기의 상위수준 합성(HLS)을 지원하는 솔루션인 '캐터펄트 AI NN(Catapult AI NN)'을 31일 발표했다. 캐터펄트 AI NN은 AI 프레임워크에서 신경망 기술로 시작해 C++ 변환 후, 이를 반도체칩 설계의 프로그램 언어인 베릴로그(Verilog) 또는 VHDL의 RTL 가속기로 합성해 실리콘에서 구현할 수 있는 솔루션이다.
캐터펄트 AI NN에는 머신러닝 하드웨어 가속을 위한 오픈소스 패키지인 hls4ml과 상위수준 합성(HLS)을 위한 지멘스의 캐터펄트 HLS 소프트웨어가 결합됐다. 미국 에너지부 산하 연구소인 페르미연구소(Fermilab) 및 기타 hls4ml의 주요 기여자들과 긴밀히 협력해 개발되었으며, 맞춤형 실리콘의 전력, 성능 및 면적에 대한 머신러닝 가속기 설계의 고유 요구 사항을 해결한다.
지멘스 디지털 인더스트리 소프트웨어의 상위수준 설계, 검증 및 전력 부문 부사장 겸 총괄 매니저인 모 모바헤드는 “소프트웨어 신경망 모델을 하드웨어로 구현하기 위해 수작업으로 변환하는 과정은 매우 비효율적이고 시간이 많이 걸리며 오류가 발생하기 쉽다. 특히 특정 성능, 전력 및 면적에 맞춘 하드웨어 가속기의 변형을 만들고 검증할 때 더욱 그렇다”라고 말했다.
그는 “과학자와 AI 전문가가 신경망 모델 설계와 같은 산업 표준 AI 프레임워크를 활용하고, 이러한 모델을 전력, 성능 및 면적(PPA)에 최적화된 하드웨어 설계를 위해 원활하게 합성할 수 있도록 지원하는 것은 AI 및 머신러닝 소프트웨어 엔지니어에게 완전히 새로운 가능성의 영역을 열어준다. 캐터펄트 AI NN 솔루션을 통해 개발자는 소프트웨어 개발 과정에서 최적의 PPA를 위한 신경망 모델을 자동화하고 동시에 구현할 수 있어 AI 개발에 효율성과 혁신을 가져올 수 있다”라고 말했다.
최근 전력 소비를 최소화하고 비용을 절감하며 최종 제품의 차별화를 극대화하기 위한 ‘적절한 크기의’ AI 하드웨어에 대한 요구가 빠르게 증가하고 있다. AI의 실행 시간 및 머신러닝 작업이 기존 데이터센터를 비롯해, 소비자 가전, 의료 기기 등 모든 분야로 번지고 있기 때문이다. 그러나 대부분의 머신러닝 전문가들은 합성 가능한 C++, 베릴로그 또는 VHDL보다는 텐서플로우(TensorFlow), 파이토치(PyTorch), 케라스(Keras)와 같은 반도체칩 설계 프로그램 언어 도구로 작업하는 것이 더 익숙한 상황이다. AI 전문가가 적절한 크기의 ASIC 또는 SoC 구현으로 쉽게 머신러닝 애플리케이션을 가속화할 수 있는 방법이 지금까지는 없었다.
머신러닝 하드웨어 가속을 위한 오픈소스 패키지인 hls4ml를 사용하면, 텐서플로우와 파이토치, 케라스 등과 같은 AI 프레임워크에 기술된 신경망에서 C++를 생성해 이러한 간극을 매울 수 있다. 그런 다음 C++를 FPGA, ASIC 또는 SoC 구현을 위해 배포할 수 있다.
캐터펄트 AI NN은 hls4ml의 기능을 ASIC 및 SoC 설계로 확장한다. 여기에는 ASIC 설계에 맞게 조정된 특별한 C++ 머신러닝 함수의 전용 라이브러리가 포함돼 있다. 설계자는 함수를 사용하여 C++ 코드의 대체 구현에서 지연 시간 및 리소스 절충을 통해 PPA를 최적화할 수 있다. 또한 설계자는 다양한 신경망 설계의 영향을 평가하고 하드웨어에 가장 적합한 신경망 구조를 결정할 수 있다.
페르미연구소의 신기술 부문 부연구소장 파나지오티스 스펜주리스는 “입자 검출기 애플리케이션에는 매우 엄격한 에지 AI 제약 조건이 있다. 지멘스와의 협력을 통해 과학자 및 AI 전문가가 ASIC 설계자가 아니더라도 충분히 전문성을 발휘할 수 있는 합성 프레임워크인 캐터펄트 AI NN을 개발할 수 있었다. 이 프레임워크는 숙련된 하드웨어 전문가들의 업무 효율성을 높이는 데도 매우 이상적이다”라고 말했다.
캐터펄트 AI NN은 현재 얼리어답터에게 제공되고 있으며, 2024년 4분기에 모든 사용자가 사용할 수 있게 될 예정이다. dl-ciokorea@foundryco.com