자세히 보기

By Kim Jin Cheol

김진철의 How-to-Big Data | 빅데이터의 미래 (10)

뉴스
2020.08.2626분

최근 인공지능 관련 기술에서 가장 많이 주목을 받는 동시에 단일 품목으로 큰 시장이 열릴 것이라 기대되는 기술이 있다. 바로 인공지능 구현에 필

잘 알려진 인텔의 Xeon CPU, AMD의 Opteron CPU, ARM 코어 CPU는 일반 컴퓨터 작업을 위한 범용 프로세서고, 인공지능 구현에서 많이 쓰이는 행렬, 텐서 연산, 그리고 최적화(optimization) 연산의 성능 향상에 집중하여 프로세서를 설계, 양산한 제품이 인공지능 프로세서 반도체다.

인공지능 연산에 최적화된 프로세서들은 범용 CPU와는 다르게 일반적인 작업을 실행하지는 못하고, 인공지능 학습과 추론에 필요한 계산 성능을 향상하기 위한 목적으로 많이 쓰인다. 이 때문에 보통 일반 CPU와 함께 컴퓨터에 부가적으로 탑재되어 딥러닝 같은 인공지능 구현에 관련된 계산을 수행할 때만 해당 작업을 이런 인공지능 프로세서쪽으로 옮겨(off-load) 실행한 후, 그 결과를 CPU로 전달하여 다른 작업과 같이 수행하는 식으로 연산이 처리된다. 일종의 보조 프로세서(co-processor)인 셈이다.

지난 스물 한 번째 글에서 최근 딥러닝 연산을 가속하기 위한 엔비디아(Nvidia)의 GPGPU(General Purpose Graphic Processing Unit; GP-GPU)인 테슬라(TESLA), 퀄컴(Qualcomm)의 신경 프로세싱 유닛(Neural Processing Unit; NPU), 구글의 텐서 프로세싱 유닛(Tensor Processing Unit; TPU)과 같은 고성능 딥러닝 프로세서 기술과 IBM의 트루노스(TrueNorth), MIT의 아이리스(Eyeriss)와 같은 신경모방(뉴로모픽 프로세서; neuromorphic processor)들을 잠시 살펴본 바 있다. 

반도체 설계 및 제조 기술이 발전함에 따라 이렇게 인공지능과 기계 학습에 많이 쓰이는 연산을 가속할 수 있는 새로운 형태의 프로세서들도 다양하게 나타나고 있다. 인공지능 기술 개발에 반도체 설계, 제조 기술을 이용해 활용하는 이런 경향이 앞으로 더 가속되면서 새로운 하드웨어 및 고성능 프로세서 제품이 새로운 시장을 열 가능성도 앞으로 더 높아질 것으로 보인다.

인공지능용 고성능 프로세서 기술
빅데이터의 미래 기술과 관련된 인공지능의 미래를 살펴볼 이번 글에서 사이버 물리 시스템의 두뇌가 될 인공지능을 담을 그릇이 될 기술로서 인공지능용 고성능 프로세서 기술에 대해 먼저 살펴보려고 한다. 

인공지능 관련 기술 대부분이 소프트웨어나 서비스에 관련된 것들이 많고, 실제로 인공지능의 기능을 구현하는 것은 소프트웨어이기 때문에 앞으로 살펴볼 미래 인공지능 기술에 관한 많은 내용들이 소프트웨어 기술에 관한 것이 될 것이다. 

이런 인공지능 소프트웨어들이 요구사항에 맞게 실행이 되기 위해서는 인공지능 소프트웨어 연산에 맞는 고성능 프로세서와 하드웨어가 꼭 필요하고, 인공지능을 이용한 제품과 서비스 대부분에서 이런 하드웨어와 고성능 프로세서를 사용할 것이기 때문에 인공지능 관련 제품 중에서 단일 품목으로 가장 많은 수익을 낼 수 있는 제품은 이런 하드웨어와 고성능 프로세서 기술이 될 것으로 보인다.

이런 측면에서 정부에서 최근 “프로세서-인-메모리(PIM)” 방식의 인공지능용 고성능 프로세서를 인공지능 시대를 대비할 기술로 선정하고 집중적으로 기술 개발, 산업으로 성장시키고자 하는 계획은 현재 우리나라의 반도체 기술 역량과 산업 현황에 비추어보면 적절한 선택이라고 볼 수 있다. 

최근 휴대폰에 많이 쓰이는 “응용 프로세서(Application Processor; AP)” 분야에서 삼성전자가 선전하고 있지만, 전통적으로 우리나라는 현재까지 메모리 반도체(DRAM 및 Flash 메모리)분야에서 강점을 가지고 있었다.

“프로세서-인-메모리(PIM)” 방식의 인공지능용 고성능 프로세서 기술을 개발하게 되면, 비메모리 분야 반도체 설계 및 제조 역량도 쌓을 수 있으면서 인공지능 시대를 대비할 수 있는 차세대 반도체 및 하드웨어 기술의 역량도 쌓을 수 있기 때문에 우리나라 반도체 기술 역량과 산업도 성장시키면서 인공지능 시대도 대비할 수 있는 좋은 선택이다.

“프로세서-인-메모리(PIM)” 방식의 인공지능용 고성능 프로세서는 현재 인공지능, 그 중에서도 딥러닝 기반 인공지능 연산을 가속하는데 좋은 반도체 아키텍처이다. 10년뒤에 어떤 새로운 인공지능 기술이 나타나 새로운 방식의 하드웨어와 반도체 제품이 시장을 장악할 것인지는 알 수 없기 때문에, “프로세서-인-메모리(PIM)” 방식과 같은 특정 하드웨어 아키텍처가 도태되거나 새로운 하드웨어 기술로 대체될 기술 위험의 가능성을 염두에 두고 추진하면 좋겠다.

인공지능 시대를 대비한 우리나라의 차세대 먹거리 기술로 선정된 “프로세서-인-메모리(PIM)” 방식의 인공지능용 고성능 프로세서에 대해 좀더 알아보도록 하자.

이 “프로세서-인-메모리(PIM)” 방식의 인공지능용 고성능 프로세서로 최근 나온 제품은 두 가지인데, 하나는 영국의 “그래프코어(GraphCore)”에서 개발한 “그래프코어 지능형 프로세싱 유닛(Intelligence Processing Unit; IPU)”이고, 다른 하나는 미국의 “세리브라스 시스템즈(Cerebras Systems, Inc.)”에서 개발한 “웨이퍼 스케일 엔진(Wafer-scale Engine)” 프로세서다. 

두 프로세서 모두 딥러닝을 비롯한 인공지능과 기계 학습 연산의 성능을 높이기 위해 만들어진 고성능 프로세서이고, 메모리과 컴퓨팅 코어가 고성능, 저지연(low latency) 패브릭(fabric)을 통해 긴밀하게 연결되어 있는 “프로세서-인-메모리(PIM)” 방식으로 설계되어 있다. 

“그래프코어(GraphCore)”에서 개발한 “그래프코어 지능형 프로세싱 유닛(Intelligence Processing Unit; IPU)”에 대해서 먼저 살펴보도록 하자. 그래프코어의 IPU는 회사 이름에서 유추할 수 있는 것과 같이, 인공지능용 프로세서로 개발됐다기보다는 원래 그래프 컴퓨팅(graph computing)에 적합한 프로세서로 설계, 개발됐다. 

여기서 말하는 “그래프(graph)”는 데이터 과학에서 흔히 얘기하는 데이터 가시화 방법의 하나인 차트(chart)를 말하는 그래프(graph)가 아니라, 수학과 컴퓨터 과학에서 많이 연구되는 객체이자 데이터 구조인 점과 선이 연결되어 구성되는 그래프를 말하는 것이다.

그래프 컴퓨팅은 최근 “연결 데이터(Linked data)”를 모델링, 분석, 계산하는데 많이 활용되고 있는데, 특히 소셜 네트워크 데이터 마이닝에 응용되면서 최근 많이 유명해졌다. 소셜 네트워크는 그 특성상 다양한 개인들의 데이터가 연결된 그래프(graph) 형태로 모델링 되는데, 이를 그래프 데이터 구조로 적절하게 표현하고, 이런 그래프 상에 부여된 다양한 자질(feature)과 파라미터들을 계산해내기 위한 방법론과 프로그래밍 모델들이 최근에 많이 연구되고 있다.

그래프 컴퓨팅 문제의 상당수가 많은 계산량을 요구하는 비다항식 계산 복잡도를 가진(NP-hard) 계산 문제인 경우가 많아서, 그래프에 관련된 모델링과 계산을 하기 위해서 고성능 컴퓨팅이 필요하다. 과거의 범용 CPU에서 그래프 컴퓨팅을 대규모로 하기 위해서는 리눅스 클러스터와 같은 병렬 컴퓨터를 만들어 쓸 정도로 고성능 컴퓨팅이 필요하다.

그래프코어의 IPU는 그래프 컴퓨팅에 적합하도록 프로세서 자체를 다시 설계한 경우이다. 그런데, 여기서 그래프 컴퓨팅과 인공지능이 무슨 관계인지 궁금한 독자들이 있을 것 같다. 그래프 모델은 최근 딥러닝 뿐만 아니라, 베이지안 모델(Bayesian model), 심층 신뢰 네트워크 모델(Deep Belief Network), 그래프 신경망(Graph Neural Network)등의 인공지능 모델에도 많이 활용되고 있다. 

뿐만 아니라, 딥러닝 모델을 원래 일컫는 말인 신경망 모델의 대표적인 응용 분야중의 하나가, 소위 세일즈맨의 문제(Traveling Salesman’s Problem; TSP)”로 알려진 경로 최적화(path optimization)와 같은 그래프 컴퓨팅 문제이고, 그래프로 모델링 될 수 있는 문제의 해법을 구하기 위한 방법으로도 신경망과 같은 인공지능 모델이 많이 사용된다.

또한 최근 텐서플로우(TensorFlow)와 같은 딥러닝 모델을 위한 소프트웨어 프레임워크들은 딥러닝 모델을 확장성 있게 계산할 수 있는 방법으로 비순환 방향성 그래프(Directed Acyclic Graph; 이하 DAG)와 같은 그래프 모델을 사용한다. DAG 형태로 구성된 컴퓨팅 모델이 최적의 성능과 자원을 이용해 연산을 수행할 수 있도록 자원과 컴퓨팅 요소들을 스케줄링하는 문제도 결국 그래프 컴퓨팅 문제가 된다. 

이 때문에 인공지능을 위한 계산을 위해서 그래프 컴퓨팅은 필수적으로 다루어야 하는 문제가 되었고, 그래프코어의 IPU 기술을 인공지능을 위한 기술로 볼 수 있는 것이다. 이런 측면에서, 그래프코어사의 IPU 기술은 인공지능 기술이라기 보다는 인공지능 기술이 더 잘 쓰일 수 있도록 하는 도구 기술이라고 볼 수 있다.

그래프코어 IPU 기술의 면면을 인공지능 기술과 연관 지어 같이 살펴보도록 하자. 그림 3은 그래프코어사의 2세대 IPU 프로세서인 콜로수스 마크2(Colossus MK2) IPU의 내부 구조를 그림으로 표현한 것이다. 빨간 색의 사각형과 주황색 사각형 하나가 묶여 있는 모듈이 “IPU 타일(tile)”이라 불리는 구조이다. 이 IPU 타일내에는 1개의 IPU프로세서 코어(Core)와, 이 IPU 코어(Core) 프로세서와 직접 연결된 메모리인 “프로세서내 메모리(In-Processor Memory)”가 배치되어 있다. 

콜로수스 마크2 IPU 프로세서내에는 1472개의 IPU 타일이 집적되어 있어, 한 번에 독립적인 프로그램 스레드를 병렬로 실행시킬 수 있다. 하나의 IPU 타일내에 있는 “프로세서내 메모리(In-Processor Memory)”의 용량은 900MB이며, IPU 하나당 초당 47.5테라바이트(47.5 TB/s)의 메모리 대역폭을 가지고 있어 “프로세서내 메모리(In-Processor Memory)”안에서 대용량 데이터 처리가 가능하다. 

그림 5는 그래프코어 IPU를 장착한 최초의 전용 서버 제품인 델(Dell)의 DSS 8440 서버 내부에서 IPU와 CPU사이에서, 그리고 IPU 프로세서 사이에서 어떻게 서로 통신을 하는지 보여주는 그림이다.  그림 4의 DSS 8440 서버 내부를 보면 알 수 있지만, IPU 프로세서는 보조 프로세서의 역할을 하여 IPU 프로세서가 장착된 보드가 PCIe 버스 슬롯에 꽂혀 동작하게 된다. 두 개의 IPU 프로세서가 장착된 하나의 IPU 카드는 통 200TFLOPS에 달하는 연산을 수행할 수 있다.

하나의 IPU 보드에는 두 개의 IPU 프로세서가 장착되며, IPU 프로세서간 통신을 위해 80개의 IPU 링크 버스가 연결되어 있다. 각 링크의 대역폭은 32Gbps로, 80개의 IPU 링크 버스를 통해서 IPU 프로세서 사이에서 전송될 수 있는 데이터는 2.5Tbps, 또는 450GB/s이다. 

이 버스 대역폭 중에서 192GB/s의 대역폭은 같은 IPU 카드상에 위치한 IPU 프로세서 사이의 통신을 위한 것이고, 256GB/s의 나머지 대역폭은 다른 카드에 위치한 IPU 프로세서들과의 통신을 위한 것이다. 다른 카드에 위치한 IPU 프로세서들과 통신을 위한 대역폭을 더 크고 넉넉하게 할당함으로써, 많은 수의 IPU 프로세서를 이용한 계산 확장성을 쉽게 얻을 수 있도록 설계되어 많은 계산이 필요한 인공지능 기술 개발에 적합하다.

DSS 8440 1대에 최고 8개까지 IPU 카드를 꽂을 수 있어 총 1.6PetaFLOPS의 연산 성능을 제공할 수 있다. CPU와 데이터를 주고받는 버스는 PCIe 3세대(PCIe Gen3)를 채택하고 있고, PCIe 버스내에 총 네 개의 스위치를 가지고 데이터 스트림 경로를 제어한다. 

일반적인 서버에서 PCIe 버스가 보통 하나나 두 개의 스위치를 가지는 것을 생각해보면 네 개의 스위치를 가지고 데이터 흐름을 제어하는 DSS 8440 서버 샤시는 IPU간 데이터 교환에서 대역폭을 더 높이고 지연을 효과적으로 줄일 수 있도록 한다. CPU-IPU간 데이터 통신을 위해 이런 PCIe Gen3 버스 아키텍처를 가진 DSS 8440 서버는 IPU 뿐만 아니라, GPU를 많이 사용하고 GPU 확장성이 필요한 딥러닝과 기계 학습 작업에도 적합하다.

그림 5의 하단에는 IPU 사이의 데이터 통신을 위한 패브릭의 구조가 좀더 자세하게 그려져 있다. 그래프코어(Graphcore)에서 IPU 전용 데이터 통신을 위해 만든 IPU 게이트웨이 칩(IPU Gateway System-on-Chip(SoC))은 다양한 버스와의 연결을 지원하여 그래프 컴퓨팅의 성능을 높일 수 있도록 한다. 

먼저, 빨간색으로 표현되어 있는 것과 같이, 앞서 설명한 192GB/s의 동일 Colossus Mk II 보드내 IPU간 통신을 위한 버스, 서로 다른 콜로수스 마크 II(Collossus MK II) 보드 사이의 통신을 위한 256GB/s 버스와의 연결 및 데이터 스트림 경로 제어가 가능하다.

이에 더해 M.2 NVMe SSD 스토리지에 저장되어 있는 데이터 입출력의 지연(latency)을 줄이면서 성능을 향상할 수 있는 데이터 통신 경로가 별도로 지원되며, 같은 방식으로 주 메모리와의 통신도 제공한다(보라색). 노드간 확장성을 위해 네트워크 인터페이스 카드와의 빠른 데이터 통신을 위한 대용량 데이터 패브릭 또한 지원된다.

대형(large-scale) 그래프 컴퓨팅에 필요한 확장성을 제공하기 위해 이렇게 도입된 IPU간 통신, 콜로수스 마크 II(Colossus MK II) 보드간 통신, 데이터가 저장되어 있는 DRAM 및 M.2 NVMe SSD와의 통신, 그리고 서버 노드간 통신을 위한 네트워크 인터페이스 카드와 다른 IPU 보드에 있는 IPU 게이트웨이 칩(IPU Gateway SoC)과의 통신을 모두 하나의 IPU 게이트웨어 칩에서 제어할 수 있다. 이렇게 IPU와 함께 같이 제공되는 IPU 게이트웨이 칩은 현재 서버 아키텍처에서는 어려웠던 확장성을 제공할 수 있게 하여 근본적으로 다른 수준의 그래프 컴퓨팅을 가능하게 한다.

이렇게 인공지능을 위해 필요한 연산에 적합한 확장성과 성능을 제공할 수 있도록 하드웨어 아키텍처 수준에서 근본적인 변화를 일으킨 그래프코어(Graphcore)사의 콜로수스 MK II(Colossuss MK II) 보드와 IPU 프로세서, IPU 게이트웨이 칩은 인공지능과 기계 학습 연산의 성능을 하드웨어 수준에서 끌어올릴 수 있어 인공지능 및 기계 학습의 응용 분야를 크게 넓힐 것으로 기대된다. 

하지만 기존의 하드웨어 아키텍처와는 근본적으로 다른 IPU 시스템의 아키텍처를 잘 활용할 수 있는 소프트웨어를 인공지능 소프트웨어 엔지니어들이 저수준부터 직접 모두 만들어야 한다면 이런 하드웨어 아키텍처 변화의 장점을 온전히 살린 서비스나 상품을 개발하는 것은 정말 힘들 것이다. 다행히, 그래프코어(Graphcore)에서 이런 IPU 아키텍처를 활용한 그래프 연산을 추상화한 라이브러리와 IPU를 장착한 서버 관리를 편리하게 지원하는 소프트웨어 스택을 제공하고 있다.

그림 6은 그래프코어(Graphcore)에서 IPU가 장착된 서버를 일반 인공지능 연구자들이나 소프트웨어 엔지니어들이 활용할 수 있도록 제공하는 소프트웨어 스택을 보여준다. 

먼저, 리눅스 기반의 운영체제에서 IPU 디바이스를 추상화해서 소프트웨어와 통합이 쉽도록 한 디바이스 드라이버와 “사용자 공간 응용 프로그램 인터페이스(User Spaces Application Programming Interface(API))”, “IPU 하드웨어 추상화 층(IPU Hardware Abstraction Layer(HAL))”이 제공되고, 이 소프트웨어 스택 위에서 IPU 디바이스에 추상화된 API로 쉽게 접근이 가능하도록 한 “그래프코어 디바이스 접근 소프트웨어 층(Graphcore Device Access)”이 제공된다. 여기까지는 하드웨어 제조사들이 통상적으로 제공하는 기본적인 수준의 시스템 소프트웨어 들이다.

인공지능, 기계 학습, 그리고 그래프 컴퓨팅 응용 프로그램 개발자들에게 중요한 것은 이 시스템 소프트웨어 위에서 제공되는 그래프 컴퓨팅 소프트웨어 스택인 “포플라(POPLAR)”이다. “포플라(POPLAR)”는 그래프코어 시스템 소프트웨어 층 바로 위에서 IPU 하드웨어가 그래프 컴퓨팅을 위한 추상화 수준으로 프로그래밍 될 수 있도록 하는 소프트웨어 층이다.

포플라(POPLAR)는 포플라(POPLAR) 디바이스 인터페이스라고 불리는 추상화 층을 다시 정의하고 이를 바탕으로 “그래프 엔진(Graph Engine)”과 “그래프 컴파일러(Graph Compiler)”를 제공하여 사용자의 고수준 그래프 정의를 IPU가 이해할 수 있도록 기계 수준의 기술(description)로 바꾸어 실행될 수 있도록 한다. 

이 “그래프 엔진(Graph Engine)”과 “그래프 컴파일러(Graph Compiler)”위에 “포플라 그래프 라이브러리(POPLAR Graph Library)”가 정의되어 있어, 그래프 컴퓨팅을 활용하는 일반 소프트웨어 엔지니어와 텐서플로우(TensorFlow), 파이토치(PyTorch)와 같은 기계 학습 소프트웨어 도구를 사용하는 기계 학습, 인공지능 엔지니어들이 손쉽게 IPU 하드웨어의 성능을 활용할 수 있도록 소프트웨어 스택이 구성되어 있다.

이 포플라(POPLAR) 소프트웨어 스택과 함께, 여러 대의 IPU 서버로 구성된 IPU 클러스터의 관리를 소프트웨어 정의(software-defined) 방식으로 손쉽게 하도록 하는 “IPU-POD 관리자(IPU POD Manager)” 및 “가상 IPU(Virtual IPU)” 소프트웨어 스택도 제공된다(그림 6). 

이 “IPU-POD 관리자(IPU POD Manager)” 및 “가상 IPU(Virtual IPU)”, “가상 팟 자원 관리자(Virtual IPU, vPOD Resource Manager)”는 슬럼(Slurm)과 같은 작업 스케줄러(job scheduler)와 쿠버네티스(Kubernetes)와 같은 컨테이너 기반의 자원 관리 기술을 활용해 포플라(POPLAR)를 이용한 그래프 컴퓨팅 및 기계 학습, 인공지능 소프트웨어 작업들을 IPU에 탄력적이고 유연하게 배치하여 실행할 수 있도록 한다.

이 IPU 팟 관리자와 함께 IPU 보드의 펌웨어와 시스템 관리를 위해서 “분산 관리 태스크 포스(Distributed Management Task Force; DMTF)”에서 제정한 시스템 관리 RESTful API 표준인 “레드피쉬(Redfish)” 표준에 준하는 원격 API와 리눅스 재단에서 개발, 제공하는 시스템 펌웨어 오픈 소스 스택인 OpenBMC와의 호환성도 제공하여 IPU 자원의 원격, 중앙 관리도 가능하도록 소프트웨어 스택이 구성되어 있다.

이 그래프코어 소프트웨어 스택의 핵심은 역시 IPU 하드웨어를 다룰 수 있도록 하는 디바이스 드라이버와 이 위에 그래프 컴퓨팅이 가능하도록 추상화된 포플라(POPLAR) 그래프 컴퓨팅 라이브러리겠지만, IPU 자원 관리를 위한 가상화 소프트웨어 및 시스템 관리 소프트웨어까지 같이 제공하는 것을 우리가 눈 여겨 볼 필요가 있다. 

뿐만 아니라, 쿠버네티스(Kubernetes)와 슬럼(Slurm), 그리고 OpenBMC 및 레드피쉬(Redfish)와 같은 오픈 소스 소프트웨어 지원까지 신경 써서 제공하는 것은 이제 그래프코어와 같은 반도체 및 하드웨어 제조사도 솔루션 기업으로서 비즈니스 전략을 짜지 않으면 시장 진입이 쉽지 않은 상황을 보여준다고 생각할 수 있다.

앞서 설명한 IPU와 델(Dell)의 DSS 8440 서버 제품에서 IPU 버스 및 PCIe 패브릭(fabric) 토폴로지와 구조를 살펴보면서 확인했던 것과 같이, IPU 프로세서와 IPU 확장 보드는 연산의 확장성을 제공하기 위해 다른 하드웨어에 비해 데이터 통신을 위한 버스 토폴로지와 대역폭을 개선하는데 많은 노력을 기울였다. 

이렇게 대규모 그래프 컴퓨팅 연산에 적합한 확장성을 제공할 수 있도록 패브릭 아키텍처에 공을 들인 콜로수스 마크 II IPU하드웨어와 델(Dell)의 DSS 8440 서버는 기계 학습에서 데이터 병렬(data parallel) 작업에도 효과적이지만, 대형 인공지능 기술을 개발하기 위한 모델 병렬(model parallel) 작업에 더 효과적이다. 

최근 딥러닝 기반 인공지능 기술의 붐을 일으킨 회사 중 하나인 엔비디아(Nvidia)의 GP-GPU는 GP-GPU내부에서의 연산 성능은 언제나 인정받았지만, GP-GPU내부 메모리 용량 제한과 다른 GP-GPU와 통신과정의 병목(bottleneck)때문에 언제나 계산 확장성(scalability)이 좋지 않다는 지적을 받아왔다.

최근 NVLink와 같은 고대역폭 버스 아키텍처와 NCCL과 같은 노드 확장성을 제공하는 소프트웨어를 통해 확장성을 많이 개선하기는 했지만, GP-GPU를 사용한 멀티 GPU 컴퓨팅에서는 언제나 확장성이 여전히 문제가 된다. 이런 특성때문에 모델 병렬 작업이 필요한 대형 인공지능 기술을 개발하기 어려운 단점이 있었다.

콜로수스 마크 II 확장 보드의 IPU 게이트웨이 및 IPU 버스의 대역폭, 토폴로지와 델(Dell)의 DSS 8440 서버의 PCIe 버스 아키텍처덕에 IPU는 GP-GPU와 비교했을 때 모델 병렬 작업을 이용한 대형 인공지능 모델 개발에 더 유용하게 쓰일 수 있다. 모델 병렬 작업 형태의 인공지능 모델 개발에 꼭 필요한, 다른 프로세서에서 실행되고 있는 모델 컴포넌트와 하위 모델간 데이터 통신을 원활하게 할 수 있는 고대역폭 버스와 대칭적인 패브릭 토폴로지를 제공하기 때문이다.

이와 같은 IPU 패브릭 아키텍처 및 토폴로지 때문에 그림 7과 같이 IPU로 구성된 고성능 컴퓨팅 시스템에서는 데이터 병렬(data parallel) 형태의 기계 학습 모델과 모델 병렬(model parallel) 형태의 기계 학습 모델 학습과 추론 실행 모두가 효과적으로 실행될 수 있다. 이 때문에 단일 모델을 많은 데이터를 이용해 추론의 정확도를 높이는 데이터 병렬 작업 형태의 기계 학습 훈련(training) 실행 속도를 높일 수 있다. 

뿐만 아니라, 여러 IPU에 걸쳐 모델 컴포넌트 및 하위 모델을 배치하고, 이 모델 컴포넌트 및 하위 모델 연산간의 데이터 교환은 패브릭과 네트워크를 통해 이루어지도록 해서 모델의 크기를 근본적으로 키우는 모델 병렬(model parallel)형태의 기계 학습 훈련(training)을 구현하는 데에도 효과적이다. 이런 모델 병렬 형태의 인공지능 연산을 지원하기 용이한 IPU 패브릭 아키텍처는 BERT나 GPT-3와 같은 대형 인공지능 모델을 개발하고 실행하는데 큰 도움이 된다.

지금까지 꽤 많은 지면을 할애하여 최근 인공지능을 위한 하드웨어 기술의 대표적인 제품인 그래프코어(Graphcore)의 IPU프로세서 기술에 대해서 간단하게 살펴보았다. 이제 그래프코어(Graphcore)의 IPU 프로세서와 함께 인공지능 하드웨어 기술의 미래를 보여주고 있는 또 하나의 고성능 컴퓨팅 프로세서 기술로서, “세리브라스 시스템즈(Cerebras Systems, Inc.)”의 “웨이퍼 스케일 엔진(Wafer-Scale Engine)” 프로세서 기술을 살펴보도록 하자.

그림 8은 “세리브라스 시스템즈(Cerebras Systems, Inc.)”의 “웨이퍼 스케일 엔진(Wafer Scale Engine)”의 외양을 보여주고 있다. 세리브라스 시스템즈의 기술은 크게 세 가지로 요약될 수 있는데, 첫번째는 한 변이 21.5센티미터가 되는 매우 큰 사이즈의 딥러닝 계산용 프로세서를 만들었다는 것이고, 두번째는 이 대형 딥러닝 계산용 프로세서에 무려 400,000코어의 계산 코어와 이들 코어 사이의 통신을 위한 패브릭을 집적했다는 것이다. 세번째로, 이 거대한 단일 웨이퍼 프로세서를 기반으로 딥러닝 계산을 할 수 있는 서버 시스템을 단지 15 랙 유닛의 서버 샤시에 집적하여 통합했다는 것이다.

“웨이퍼 스케일 엔진(Wafer Scale Engine)”을 보면 이렇게 큰 프로세서를 만든 거 빼고 뭐가 더 좋은거지라는 생각이 들 수 있다. 그런데, 조금만 다르게 뒤집어 생각해보자. 지금까지 반도체 기술은 가능하면 작은 면적에 많은 회로를 집적시켜 최대한 프로세서의 크기는 줄이면서 연산 성능은 향상시키는 쪽으로 발전해왔다. “웨이퍼 스케일 엔진(Wafer Scale Engine)”은 이런 반도체 기술 발전 방향과 전혀 반대되는 방향으로 발상을 전환했다는 것이 다르다.

보통 프로세서를 만들 때 크기가 문제가 되는 이유 첫번째는 컴퓨터에 CPU나 GPU와 같은 프로세서만 있어서는 컴퓨터의 온전한 기능을 만들 수 없고, 이 프로세서외에 DRAM과 같은 메모리나 SSD나 HDD와 같은 영구 저장 장치, 전력 공급을 위한 전원 박스, 네트워크 연결을 위한 네트워크 인터페이스 카드와 같이 다른 다양한 하드웨어 컴포넌트도 같이 통합되어야 하기 때문이다. 이들 다른 컴포넌트들이 같이 통합되어 온전하게 작동하는 컴퓨터로 만들기 위해 현재 기술로 경제적으로 만들 수 있는 컴퓨터 샤시의 크기에 제한이 있기 때문에 무한정 프로세서의 크기를 키울 수가 없는 것이다.

두번째로, 보통 프로세서의 크기가 문제가 되는 것은 반도체 공정과 관련이 있는데, 우리가 사용하는 반도체 칩이나 프로세서를 개발할 수 있을 정도로 충분히 큰 크기의 웨이퍼를 만들기가 생각보다 쉽지 않다는 것이다. 컴퓨터 프로세서나 특정한 목적을 위한 칩을 만들기 위해서는 우선 순도가 매우 높은 실리콘 웨이퍼를 성장시켜 만들 수 있어야 하는데, 이렇게 순도가 높은 실리콘 웨이퍼를 만드는 것이 쉽지 않은 일이다. 뿐만 아니라 이런 웨이퍼에 많은 미세 회로를 불량 없이 집적시키는 것은 더 어려운 일이다.

현재 우리가 쓰는 CPU나 GPU를 만들 때 보통 사용하는 웨이퍼의 크기는 최근까지 직경이 150mm(6인치)에서 200mm(8인치)였으나, 최근에는 300mm(10인치) 웨이퍼로 공정이 많이 옮겨가고 있는 추세다. 실리콘 웨이퍼 공정 기술이 발전하여 300mm(10인치) 직경의 대형 실리콘 웨이퍼를 반도체 제조에 활용하게 된 것은 2000년경 부터다. 300mm(10인치) 직경의 실리콘 웨이퍼에서 약 1,100여개의 칩을 제조할 수 있다고 한다.

반도체 제조에 쓸 정도로 순도가 높으면서 300mm 크기를 가지는 웨이퍼를 현재 반도체 수요에 맞게 대량 생산하기가 쉽지 않고, 아직 150mm(6인치) 및 200mm(8인치) 공정을 대체할 만큼 많이 생산하기가 어렵기 때문에 300mm(10인치)가 많이 활용되기 시작한 것은 그렇게 얼마되지 않았으며, 최근에 들어서야 많은 실리콘 웨이퍼 팹들이 300mm(10인치) 직경 웨이퍼 중심으로 공정으로 돌아서고 있는 추세이다.

“웨이퍼 스케일 엔진(Wafer Scale Engine)”은 바로 이렇게 보통 1,100여개의 프로세서를 만들 수 있는 300mm(10인치) 웨이퍼 하나를 통째로 써서 하나의 거대한 프로세서를 만든 것이다. 이와 함께, 1,100여개의 프로세서를 만들 수 있는 크기의 웨이퍼로 훨씬 더 많은 수의 트랜지스터가 집적되는 하나의 거대한 프로세서를 만드는 과정에서, 보통 반도체 프로세서 각각에 요구되는 신뢰성과 낮은 불량율을 만족시킬 수 있도록 반도체 생산 공정을 만들어야 하기 때문에 더 쉽지 않은 일이다. 

반도체 하나에 들어가는 트랜지스터의 수가 많아질수록 불량율을 낮추고 신뢰성을 높이는 것이 더 어려워지는데, 보통 반도체 프로세서보다 1,000배이상 큰 “웨이퍼 스케일 엔진(Wafer Scale Engine)”은 적어도 보통 프로세서에 비해 최소 1,000배이상으로 더 어렵고 복잡한 프로세서인 셈이다.

세번째로, 이렇게 거대한 프로세서를 구동시키기 위해 머더보드부터 주변 회로와 전원 장치 모두를 완전히 새로 설계해야 했는데, 이런 수준의 새로운 컴퓨터 시스템 개발을 시도하는 것은 비용과 인력, 프로젝트 위험 관리 측면에서 보통의 자금력과 기술력을 가진 회사가 할 수 있는 일이 아니다. 

이런 수준의 컴퓨터 아키텍처와 시스템의 전면적인 변화가 필요한 컴퓨터 시스템 설계와 개발은 지금까지는 인텔과 IBM과 같이 자금력과 인력을 가진 대기업에서나 가능한 일이었다. 최근 일반 x86 서버 하드웨어의 단가가 많이 낮아지고, 델(Dell)이나 HP와 같은 서버 제조 회사들이 정말 박한 마진으로 치열하게 비즈니스를 하고 있는 현실을 생각하면, 이렇게 컴퓨터 시스템 전반을 새로이 설계하고 상용화하는 일은 어지간한 기술력과 고급 인력을 보유한 회사가 아니라면 쉽지 않은 일이다.

위와 같은 측면에서, “웨이퍼 스케일 엔진(Wafer Scale Engine)”은 정말 기술적으로 난이도가 높고 개발이 쉽지 않은 제품이었음에도 상용화된 것이다. 더군다나, 인텔과 IBM, 그리고 델(Dell)과 같이 서버 및 컴퓨팅 장비 분야에서 오랜 시간 비즈니스를 해오면서 장비의 생산과 유통 전반의 인프라를 최적화하여 가지고 있는 회사가 아닌, 스타트업이 순수한 기술력과 전문 역량만으로 이렇게 새로운 종류의 프로세서와 컴퓨터 하드웨어를 만들어 낸 것에 우리는 주목해야 한다. 

“웨이퍼 스케일 엔진(Wafer Scale Engine)”은 단일 GPU 프로세서에 비교해서 56.7배의 크기를 가지고 있어 더 많은 컴퓨팅 코어를 집적할 수 있다. 그림 9의 표에서 비교한 것과 같이 단일 GPU보다 무려 78배의 컴퓨팅 코어를 더 가지고 있으며, 프로세서내 메모리도 18기가바이트로 엔비디아의 GPU보다 3,000배 이상의 용량을 가지고 있어 빅데이터 처리 및 대형 딥러닝 모델의 학습과 같은 컴퓨팅 작업에 효과적이다. 

빅데이터 처리와 대형 딥러닝 모델의 학습에서 가장 필요하고 아쉬운 자원인 컴퓨팅 코어 사이의 통신 대역폭과 컴퓨팅 코어와 메모리 사이의 데이터 버스 대역폭도 각각100Pbps, 9PB/s로 GPU에 비해 33,000배, 10,000배 이상 향상되어 빅데이터와 대형 딥러닝 모델의 학습에 적합한 사양을 가지고 있다.

지금까지 최근 인공지능 기술과 관련된 하드웨어 가운데 가장 혁신적이면서 주목받고 있는 두 가지 하드웨어에 대해서 알아보았다. 그래프코어(Graphcore)의 IPU는 인공지능 분야에서 많이 쓰이는 데이터 집중 연산과 그래프 연산의 성능 향상에 초점을 맞추어 프로세서 아키텍처를 근본적으로 개선한 반도체 기술이다. 

컴퓨팅 코어가 메모리 타일 위에 함께 배치되도록 하는 디자인을 통해 빅데이터 및 딥러닝과 같은 기계 학습 작업에서 가장 병목이 되어 왔던 프로세서간 데이터 통신, 프로세서와 메모리간 데이터 교환 과정의 성능을 높여 빅데이터와 인공지능 연산의 성능을 크게 높일 수 있는 하드웨어다.

세리브라스 시스템즈(Cerebras Systems, Inc.)의 “웨이퍼 스케일 엔진(Wafer Scale Engine)”은 최근 많이 쓰이기 시작한 300mm 웨이퍼 하나를 통째로 사용하여, 회로의 선 폭을 줄이면서 소형화되어가는 최근 반도체 제조 경향과는 반대로 반도체 하나의 크기를 대폭 키워 집적되는 회로의 수를 늘려 프로세서의 양과 메모리 용량, 데이터 교환을 위한 패브릭의 대역폭을 향상한 하드웨어이다. “웨이퍼 스케일 엔진(Wafer Scale Engine)” 또한 빅데이터와 딥러닝 같은 많은 컴퓨팅 자원과 데이터가 필요한 계산 작업의 성능 향상에 크게 도움을 줄 것으로 기대된다.

위 두 하드웨어 제품이 시장에 등장한지 얼마 되지 않아 아직까지는 널리 쓰이고 있지는 않지만, 주요 기술 기업과 연구소를 중심으로 실제 딥러닝 및 그래프 빅데이터 컴퓨팅 등에 응용이 확산되고 있는 추세이다. 인공지능 분야에서 이들 하드웨어를 사용한 새로운 혁신적인 기술 개발 성과가 나타날 수 있을지 조금 더 지켜봐야 할 것으로 보인다.

그래프코어(Graphcore)의 IPU와 세리브라스 시스템즈(Cerebras Systems, Inc.)의 “웨이퍼 스케일 엔진(Wafer Scale Engine)”은 두 가지 관점에서 미래 인공지능 기술의 발전 방향을 엿볼 수 있게 해주는 중요한 기술이다. 첫번째로, 과거의 소프트웨어는 하드웨어 아키텍처에 의존해 개발되는 경향이 강했고, 소프트웨어는 하드웨어의 부속품과 같이 취급되는 경우가 많았다. 그런데, 두 기술 모두 이 경향이 반전되는 최근의 경향을 보여준다. 하드웨어가 소프트웨어 기술의 발전에 영향을 받아 새롭게 변화하는 경향이다.

두 기술 모두 최근 딥러닝과 같은 기계 학습을 위한 고성능 컴퓨팅과 그래프 빅데이터 처리 기술의 발전에 영향을 받아 하드웨어 설계가 근본적으로 바뀐 경우이다. 지금까지는 인텔과 IBM, 엔비디아와 같은 대기업들이 자체적인 반도체 기술 발전의 로드맵을 그리고 제품을 출시하면, 이들 반도체의 아키텍처와 발전 내용에 맞게 새로운 응용 분야를 찾고, 이들 응용 분야를 위한 소프트웨어가 해당 반도체와 하드웨어의 아키텍처에 맞게 프로그램돼 성능을 높이는 식이었다.

IPU와 웨이퍼 스케일 엔진(Wafer Scale Engine)은 아예 그래프 컴퓨팅과 딥러닝 계산의 향상을 우선적으로 고려해서 만들어진 반도체들이라는 점이 다르다. 이는 반도체 기술이 인공지능과 딥러닝, 그래프 컴퓨팅이라는 특정한 응용 분야의 발전과 요구 사항에 따라 발전하는 경우로, 중앙처리장치(CPU)로 대표되는 일반 컴퓨터 아키텍처의 반도체 기술의 발전과는 다른 양상으로 발전하는 경우임을 분명하게 알아 둘 필요가 있다. 

이런 경향은 최근 딥러닝 분야에서 주목을 받은 구글의 “텐서 프로세싱 유닛(Tensor Processing Unit; TPU)”에서도 볼 수 있으며, 하드웨어가 소프트웨어 발전을 주도하는 경향보다는 소프트웨어 기술이 하드웨어 기술의 발전을 견인하는 최근 경향을 분명하게 보여준다.

지난 번 글에서 필자가 정부의 인공지능 기술 육성 계획 중에 PIM 아키텍처 방식의 인공지능 반도체 기술 개발을 차세대 인공지능 산업의 핵심 과제로 정하고 추진하는 것에 대해서, 반도체 기술의 세계적인 기업들과 역량을 갖춘 우리나라의 입장에서 적절한 정책이고 환영한다고 얘기하면서 미래 연구를 통해 좀더 신중하게 재검토하는 것이 좋겠다는 의견을 표현한 것은 이렇게 소프트웨어의 발전이 하드웨어의 발전을 견인하는 최근 경향 때문이다. 

반도체와 컴퓨터 아키텍처 전문가들이야 최근 주목받는 최신의 반도체 설계 기술과 하드웨어 아키텍처를 도입, 적용하는 최신의 하드웨어를 만들어보고 이를 통해 산업 발전에 기여하고 싶겠지만, PIM 프로세서 자체가 인공지능 기술의 발전을 견인하는 것은 아니라는 것을 다시 한번 환기할 필요가 있다는 것이다. 인공지능 반도체 및 하드웨어 기술은 인공지능을 위한 그릇 기술, 도구 기술이지, 인공지능 기술 자체를 견인하는 기술이 아닌 까닭이다.

두 번째로, 소프트웨어 기술 발전을 위해 하드웨어 기술을 도구로 사용하는 경향이 심화되는 요즘 상황에서, 하드웨어가 소프트웨어 발전의 도구, 좀더 궁극적으로는 재구성 가능한 프로그래머블 하드웨어(reconfigurable hardware)로서 발전하는 경향을 실현시키기 위해 컴퓨터 하드웨어 및 반도체 설계, 제조 시스템과 인프라가 점점 더 자동화, 지능화되고 소프트웨어 중심 체계로 바뀌고 있는 경향이다.

필자는 우리나라 인공지능 하드웨어 엔지니어들과 사업가들이 IPU와 웨이퍼 스케일 엔진(Wafer Scale Engine)과 같은 특정한 기술과 상품을 보기 보다는, 이런 인공지능 반도체 기술이 짧은 시간안에 상품화될 수 있었던 인프라와 시스템, 그리고 산업 생태계를 주목하여 보았으면 하는 바램이다.

우리나라가 강점을 가지고 있기는 하지만, 여전히 비메모리 반도체 분야에서 약점을 가지고 있는 반도체 산업이 인공지능 시대가 우리에게 주는 기회를 통해 다시 한번 크게 성장, 발전할 수 있게끔 할 수 있는 지능형 공정 체계 인프라와 시스템, 산업 생태계를 갖추는데 이번 정부의 인공지능 프로세서 프로젝트를 활용했으면 하는 바램이다.

“프로세서-인-메모리(Processor-In-Memory)”와 같은 특정한 아키텍처의 반도체를 만드는 것에 초점을 맞추기 보다는, 인공지능 소프트웨어 기술과 학문의 발전에 맞추어 반도체 및 하드웨어가 인공지능 소프트웨어와 학문 발전의 도구로서 손쉽게 설계, 개발되고 인공지능 구현의 아이디어를 테스트, 수정, 변경할 수 있는 인프라 및 공정 체계, 공정 자동화 및 지능화, 산업 생태계를 구축하는 데에 초점을 맞추는 것이 4차 산업혁명과 인공지능 시대를 대비하여 산업과 기술 경쟁력을 높이려는 정부의 의도에 더 잘 맞을 것이라고 생각한다.

“프로세서-인-메모리(Processor-In-Memory)” 방식의 인공지능 기술을 설계, 개발하고 상품화하는 과정에서, 이런 인공지능 발전의 도구로서 활용될 수 있고, 인공지능 소프트웨어를 담기 위한 프로그래머블 하드웨어, 그릇으로서 반도체 기술이 기능하며, 이를 위한 시행 착오를 최소화하면서 신속한 프로토타이핑(rapid prototyping)과 상품화를 지원할 수 있는 반도체 설계, 제조 인프라와 공정 체계, 공정 자동화 및 지능화 체계를 확보하는 것이 더 중요할 것이라고 본다.

지난 글에서도 언급했듯이 “프로세서-인-메모리(Processor-In-Memory)” 방식의 반도체 기술이 10년 뒤에도 여전히 주목받는 인공지능 반도체 기술이 될지는 현재 인공지능 기술과 학문의 발전 양상을 보았을 때 예측하기가 매우 힘들기 때문이다.

빅데이터와 빅데이터 기술의 미래로서 필자가 계속 설명하고 있는 사이버 물리 시스템(Cyber-Physical System; CPS) 기술은 사실 인공지능 기술의 미래이기도 하다. 인공지능 기술이 물리적인 세계에서 우리들에게 실질적인 가치와 효용을 제공하게 하는 기술이 바로 사이버 물리 시스템(Cyber-Physical System; CPS) 기술이기 때문이다. 

우리의 지능과 두뇌의 정보 처리 방식에 대한 이해와 지식이 쌓여갈수록 인공지능 기술이 더 발전하게 될 것이며, 인공지능 소프트웨어 기술의 발전은 새로운 방식의 하드웨어와 반도체 기술의 발전도 견인하게 될 것이다. 인공지능 소프트웨어 기술은 또한 인공지능에 활용할 수 있는 빅데이터를 손쉽게 얻고 가공하는 기술과, 사이버 물리 시스템을 통한 지능형 시스템의 발전을 통해 다시 선순환돼 발전되면서 인공지능 하드웨어 기술의 발전을 가속화하게 될 것이다.

이런 관점에서 PIM 방식의 인공지능 반도체 기술 그 자체를 확보하고 구현하는 것도 중요하지만, 이 반도체 기술을 확보하게 되는 과정에서 얻게 되는, 또는 이런 PIM 방식의 인공지능 반도체를 포함해 다양한 시행 착오를 최소화하여 짧은 시간안에 아이디어를 테스트하고 새로운 반도체 및 하드웨어를 만들어낼 수 있는 시스템과 생태계를 갖추는 것에 더 중점을 두면 좋을 것 같다.

이렇게 인공지능 반도체의 빠른 프로토타이핑(rapid prototyping) 및 양산(production)이 가능한 시스템과 산업 생태계를 이번 PIM 인공지능 프로세서 프로젝트를 통해 우리나라가 얻을 수 있다면, 앞으로의 인공지능 기술 발전에 따라 지속적으로 변화할 인공지능용 하드웨어 기술을 시장의 요구에 맞게 신속하게 만들어 출시할 수 있는 기반을 갖추어 기술 혁신과 비즈니스 성장이 가속화될 것이다. 이렇게 갖춘 인공지능 반도체 산업 기반은 인공지능 하드웨어 및 서비스 시장과 산업의 성장과 함께, 다양한 스타트업의 창업도 촉진하여 경제에 주는 긍정적인 영향도 커질 것이다.

인공지능용 반도체 및 하드웨어 기술은 그 자체로 인공지능 기술인 것이 아니라, 인공지능을 담는 그릇에 해당하는 도구 기술이다. 인공지능 기술은 기본적으로 소프트웨어 기술이며, 인공지능 기술로 인한 4차 산업혁명 및 경제 성장을 촉진하기 위해서는 인공지능 관련 기초 과학과 인접 학문들의 발전이 같이 수반되어야 하고, 인공지능의 구현 및 실용화를 위한 다양한 도구 기술의 발전이 같이 동반되어야 한다는 점에서 인공지능용 반도체 및 하드웨어 기술이 중요한 것이다. 

인공지능 기술을 이용한 비즈니스와 상품을 기획하는 의사 결정권자와 실무자들은 인공지능 기술과 인공지능 도구 기술의 위치와 역할을 혼동하지 않도록 조심하여야 할 필요가 있다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Jincheol Kim, “Towards Singularity: Computing Technology Advances for Artificial Intelligence 
– Trends in H/W, S/W and TensorFlow,” Global Mobile Vision 2017, KINTEX, September 13, 2017.
[3] DANIEL TERDIMAN, “IBM’s TrueNorth processor mimics the human brain,” CNet.com, 11:00 AM PDT AUGUST 7, 2014. (https://www.cnet.com/news/ibms-truenorth-processor-mimics-the-human-brain/)
[4] Brian Wang, “Neuromorphic and Neurosynaptic Chips,” NextBigFuture.com, October 7, 2011. (https://goo.gl/9NKTgt),
[5] Yu-Hsin Chen, Tushar Krishna, Joel Emer, Vivienne Sze, “Eyeriss – An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks,” The MIT Eyeriss Project Website. (http://eyeriss.mit.edu/)
[6] Ryan Smith, “16GB NVIDIA Tesla V100 Gets Reprieve; Remains in Production,” anandtech.com, 8:00 PM EST, May 24, 2018. (https://www.anandtech.com/show/12809/16gb-nvidia-tesla-v100-gets-reprieve-remains-in-production)
[7] Anshel Sag, “Qualcomm’s Zeroth SDK Brings Machine Intelligence To More Than Smartphones,” Forbes.com, 09:00am, May 6, 2016. (https://goo.gl/hjhZhc)
[8] Stacey Higginbotham, “Google Takes Unconventional Route with Homegrown Machine Learning Chips,” TheNextPlatform.com, May 19, 2016. (https://goo.gl/k7vi1B)
[9] VICTORIA WOOLLASTON, “Google tries to save the world: Internet giant explains how its move into quantum computing could solve global warming,” MailOnline.com, 16:32 BST, 15 October 2013. (https://www.dailymail.co.uk/sciencetech/article-2461133/Google-D-Wave-quantum-computing-solve-global-warming.html)
[10] Tiffany Trade, “Requiem for a Phi: Knights Landing Discontinued,” HPCWire.com, July 25, 2018. (https://www.hpcwire.com/2018/07/25/end-of-the-road-for-knights-landing-phi/)
[11] Nick Heath, “Quantum leap: D-Wave’s next quantum computing chip offers a 1,000x speed-up,” TechRepublic.com, 2:15 AM PST, September 16, 2016. (http://www.techrepublic.com/article/quantum-leap-d-waves-next-quantum-computing-chip-offers-a-1000x-speed-up/)
[12] Nick Heath, “D-Wave quantum computers: Cheat sheet,” TechRepublic.com, 7:52 AM PST, July 3, 2018. (https://www.techrepublic.com/article/d-wave-quantum-computers-the-smart-persons-guide/)
[13] Rebecca Carney, “Instrumentation for silicon tracking at the HL-LHC,” Licentiate thesis, Stockholm University, May 2017. (https://cds.cern.ch/record/2268992/files/CERN-THESIS-2017-065.pdf)
[14] Rebecca Carney, “Kalman Filter on IBM’s TrueNorth,” Connecting The Dots / Intelligent Trackers 2017, LAL-Orsay, Paris, Mar 6 ~ 9, 2017.
[15] 唐杉,“AI芯片初创公司Graphcore的IPU架构有哪些有趣设计?” EE Times – China, December 23, 2019. (https://www.eet-china.com/news/201912231024.html)
[16] Zhe Jia, Blake Tillman, Marco Maggioni, Daniele Paolo Scarpazza, “Dissecting the Graphcore IPU Architecture via Microbenchmarking”, Technical Report, Citadel, December 7, 2019. (https://arxiv.org/abs/1912.03413)
[17] Ryota Tomioka, “Programming the Graphcore IPU”, MLSys: Workshop on Systems for ML 4, NeurIPS 2019, December 13, 2019. (https://slideslive.com/38921983/mlsys-workshop-on-systems-for-ml-4)
[18] Tom Wilson, “Graphcore at NeurIPS – New Approaches to NLP and State of the Art Performance on BERT-BASE”, NeurIPS 2019 – EXPO Industry Session, December 17, 2019.(https://youtu.be/58QR5gCgEl8)
[19] Victoria Rege, “OUR IPU LETS INNOVATORS CREATE THE NEXT BREAKTHROUGHS IN MACHINE INTELLIGENCE”, AI HARDWARESUMMIT2019,(https://www.kisacoresearch.com/presentations/1463 (https://www.kisacoresearch.comhttp://files.ciokorea.com/archive/presentations/14.10_-_graphcore_-_victoria_rege.pdf)
[20] Graphcore, “DELL DSS8440 GRAPHCORE IPU SERVER – White Paper”, Graphcore.io, February 2020. (https://www.graphcore.ai/hubfs/Lead%20gen%20assets/DSS8440%20IPU%20Server%20 White%20Paper_2020.pdf)
[21] 콜럼버스, “[인터뷰] AI 반도체 IPU 개발한 나이젤 툰 그래프코어 대표”, 시리즈 – 콜럼버스’s 스타트업네이션, April 6, 2020. (https://post.naver.com/viewer/postView.nhn?volumeNo=27923484&memberNo=2708007&searchKeyword=%EB%8F%85%EB%A6%BD%EA%B8%B0%EC%88%A0&searchRank=477)
[22] Cerebras Systems, “Cerebras Systems: Achieving Industry Best AI Performance Through A Systems Approach”, White paper. (https://www.cerebras.net/product/)
[23] Sean Lie, “Wafer Scale Deep Learning”, Hot Chips: A Symposium on High Performance Chips, August 19, 2019. (https://www.hotchips.org/hc31/HC31_1.13_Cerebras.SeanLie.v02.pdf
[24] Samuel K. Moore, “Cerebras’s Giant Chip Will Smash Deep Learning’s Speed Barrier Computers using Cerebras’s chip will train these AI systems in hours instead of weeks”, IEEE Spectrum Magazine, 01 Jan 2020. (https://spectrum.ieee.org/semiconductors/processors/cerebrass-giant-chip-will-smash-deep-learnings-speed-barrier)
[25] Dylan Martin, “AI Chip Startup Cerebras Reveals ‘World’s Fastest AI Supercomputer’”, CRN.com, November 27, 2019. (https://www.crn.com/news/components-peripherals/ai-chip-startup-cerebras-systems-raises-88-million-series-d-round)
[26] Dean Takahashi, “Cerebras Systems deploys the ‘world’s fastest AI computer’ at Argonne National Lab”, VentureBeat.com, November 19, 2019. (https://venturebeat.com/2019/11/19/cerebras-systems-deploys-the-worlds-fastest-ai-computer-at-argonne-national-lab/)
[27] Danny Crichton, “The Cerebras CS-1 computes deep learning AI problems by being bigger, bigger, and bigger than any other chip”, TechCrunch.com, November 19, 2019. (https://techcrunch.com/2019/11/19/the-cerebras-cs-1-computes-deep-learning-ai-problems-by-being-bigger-bigger-and-bigger-than-any-other-chip/)
[28] Tiernan Ray, “Cerebras teases second-generation wafer-scale AI chip”, ZDNet.com, August 18, 2020 (https://www.zdnet.com/article/cerebras-teases-second-generation-wafer-scale-ai-chip/)

김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. dl-ciokorea@foundryco.com