왜 빅데이터 현상이 일어났는가? – 빅데이터 현상의 배경지금까지 서른네 편의 글을 통해 세계 정상급 과학 연구소인 CERN의 LHC 프로젝트에
앞으로 여러 편의 글을 통해서 빅데이터 기술과 데이터 과학 트렌드가 앞으로의 사회에 어떤 시사점을 주는지 같이 생각해보는 시간을 가지려고 한다. 과연 빅데이터 트렌드가 단순히 잠깐 반짝하고 사라지는 유행어에 불과한 것인지, 아니면 앞으로의 기업 경영과 IT에 지속적인 영향을 줄 근본적인 변화를 보여주는 현상인지 같이 살펴보고 우리가 어떻게 미래를 대비해야 영속적인 비즈니스를 만들고 지켜나갈 수 있을지 생각해보려고 한다.
먼저 빅데이터가 요즘에만 화두가 된 현상이었는지 같이 생각해보자.
트랜지스터와 집적회로가 발명된 이래로 해마다 컴퓨터 칩의 집적도가 18개월마다 2배씩 증가할 것이라고 예언한 인텔의 창업자 고든 무어의 이름을 딴 무어의 법칙은 최근 반도체 기술의 물리적인 한계로 인해서 조금씩 그 집적도가 둔화되기 시작하면서 다른 양상으로 변화될 조짐이 나타나고 있다. 4~5년 전부터 CPU의 디자인이 많은 수의 CPU 코어가 단일 CPU 안에 집적되는 매니코어(many-core) 아키텍처로 발전하는 경향이 점점 뚜렷해지고 있다. 즉, 많은 양의 계산을 예전처럼 집적도와 동기화 클럭을 높여 단일 CPU 코어의 처리 속도를 높이는 대신, 계산에 활용하는 CPU 코어의 수를 늘려 병렬, 분산 처리를 하는 방향으로 컴퓨팅 기술이 발전하고 있다.
CPU 및 애플리케이션 프로세서(application processor; AP), 다양한 특수 목적 반도체의 설계에도 이런 분산, 병렬 처리 중심의 아키텍처가 대세가 되는 것과 함께, 네트워크 기술과 분산 컴퓨팅 소프트웨어의 발전으로 대규모의 병렬, 분산 컴퓨팅 시스템을 구축하고 활용하기 쉬운 방향으로 컴퓨팅 기술이 발전하고 있다. 이런 경향은 컴퓨터에서 수행되는 작업은 단순히 단일 프로세서의 처리 속도를 높여 처리 성능을 높이는 것이 아니라, 많은 수의 컴퓨팅 노드와 자원을 이용해 병렬, 분산 컴퓨팅을 하도록 하여 워크로드에 필요한 성능과 지연 제약을 극복하는 것이 최근 컴퓨팅 기술의 큰 흐름인 것을 보여준다.
최근 우리가 경험하고 있는 빅데이터는 이런 분산, 병렬 컴퓨팅을 통한 컴퓨터 성능 향상의 큰 흐름 안에서, 분산 컴퓨팅 소프트웨어 기술의 발전과 함께 돌출되어 나타난 현상이다. 그렇지만, 그 면면을 잘 살펴보면 사실 최근 빅데이터로 대표되는 현상은 빅데이터라는 말을 붙이지 않았을 뿐이지 과거 컴퓨터 기술의 역사와 같이 발전해왔다고 해도 과언이 아니다.

빅데이터 문제가 왜 생기는지 간단하게 살펴보기 위해 위 그림 1을 같이 살펴보도록 하자. 그림의 그래프에서 가로축은 데이터의 양이고, 세로축은 데이터를 처리하기 위한 연산의 복잡도와 컴퓨터의 연산 처리 능력을 같은 축에 겹쳐서 표현한 것이다. 여기서 연산의 복잡도는 시간 복잡도(time complexity)와 공간 복잡도(space complexity)를 포함하는 말이다.
우리가 실세계에서 접하는 많은 계산 문제들은 필요한 시간과 자원이 다항식(polynomial)의 꼴로 증가하여 컴퓨터에서 쉽게 풀 수 있는 문제들도 있지만, 시간과 자원이 지수적(exponential)으로 증가하는 복잡한 문제들이 더 많다. 특히, 요즘 데이터의 양과 복잡도, 요구되는 단위 시간당 데이터 처리 연산의 수준과 양은 지수적으로 늘어나고 있다.
우리가 만드는 컴퓨터의 연산 능력은 컴퓨터에 들어가는 프로세서의 수, 저장장치의 용량, 네트워크의 대역폭에 비례해서 선형으로 증가하거나 지수적으로 증가하지 않는다. 대부분 경우 로그 함수와 같이 컴퓨터에 장착된 연산 자원이 커져도 처리 능력의 증가폭은 점점 줄어들거나, 최선의 경우라도 컴퓨터의 연산 자원에 선형으로 비례하여 증가하는 것이 고작이다. 이런 컴퓨터의 연산 능력의 한계는 물리학적 법칙에 따라 결정되는 근본적인 것으로, 우리가 아무리 노력해도 극복하기 어려운 것이다. (다만 최근에 급격하게 발전하고 있는 양자컴퓨터의 경우 이런 물리적인 한계에 따른 연산 성능의 제약을 극복할 수 있을 것으로 기대되고 있다. 이에 대한 얘기는 별도로 하도록 하자.)
이와 같이 특정한 시점에서 데이터의 양과 복잡도에 따른 컴퓨터의 연산 처리 능력은 로그 함수와 같이 증가하는데, 데이터의 양과 이를 처리하기 위한 연산 복잡도는 지수적으로 증가하기 때문에, 이 두 함수가 만나는 지점(위 그림 1에서 6, 7번 점)에 이르기까지 그 시점의 컴퓨터 기술이 데이터 처리 요구사항을 수용할 수 있게 된다. 데이터의 양과 복잡도가 이 두 함수가 만나는 지점을 쉽게 넘어서 버리면 그때부터 그 시점에서 생산되는 데이터를 그 당시의 컴퓨팅 기술이 수용하지 못하면서 데이터 처리를 위한 자원을 어떻게 확보할 것인가 하는 문제가 생겨나기 시작하는데 이게 바로 빅데이터 문제의 근원이다.
이렇게 컴퓨터가 처리할 수 있는 계산과 데이터 처리의 규모가 특정 시점의 기술적인 성숙도에 따라 컴퓨터 기술의 물리적인 한계에 따른 근본적인 한계를 가지고 있기 때문에 빅데이터 문제는 컴퓨터 기술이 발전하기 시작한 시점부터 정보기술 업계가 사실상 겪어왔던 문제라고 할 수 있다. 다만, 해당 컴퓨터 기술이 산업계에 널리 쓰이고 있을 때의 데이터 활용 양상에 따라 이런 컴퓨터 기술의 물리적인 한계가 다양한 모습과 용어로 나타난 것뿐이다. 이런 관점에서 빅데이터 문제가 최근 2010년대에 사회에서 주목받는 이슈로 떠오르기는 했더라도 완전히 새로운 문제는 아니다. 현재 우리가 겪고 있는 빅데이터 문제는 컴퓨터 발전에 따라 반복적으로 나타났던 계산 및 데이터 처리 요구사항과 컴퓨터의 연산 처리 능력과의 차이로 인해 생겼던 문제가 최근 컴퓨터 기술의 발전과 이를 사회 구성원들이 활용하는 방식에 따라 다른 양상으로 나타난 것으로 보아야 한다.
그럼 현재 빅데이터 문제의 두드러진 양상은 무엇이고, 이런 양상들이 앞으로 어떻게 변화해갈지 같이 살펴보면서 앞으로 나타날 빅데이터 문제에 어떤 식으로 대처하는 것이 좋을지 살펴보도록 하자.
트랜지스터가 발명된 이래로 컴퓨터의 성능은 컴퓨터의 중앙처리장치(CPU) 반도체에 가능한 한 많은 트랜지스터를 집적하여 하나의 중앙처리장치가 얼마나 많은 연산을 단위 시간에 수행하게 하느냐에 한동안 초점이 맞추어져 있었다. 이런 경향이 인텔의 설립자 중 한 사람인 고든 무어가 얘기한 “컴퓨터 프로세서 반도체의 트랜지스터 집적도는 18개월마다 2배씩 증가한다”는 유명한 무어의 법칙이다.
1970년대에서 1980년대에 벡터 프로세싱 기술의 발전과 함께 슈퍼컴퓨팅 기술이 발전하면서 프로세서 수준에서의 병렬처리 성능을 높여 컴퓨터의 성능을 높이려는 시도가 많았지만 이 또한 무어의 법칙에서 크게 벗어나는 경향은 아니었다. 결국은 단일 프로세서 내에 트랜지스터 집적도를 높여 성능을 높이는 것에 크게 다르지 않았기 때문이다. 이런 경향은 1994년 토마스 스털링(Thomas Sterling)과 도날드 베커(Donald Becker)에 의해 베오울프 클러스터 컴퓨팅 기술이 개발되기 전까지 컴퓨터의 성능을 높이는 가장 일반적인 방법이었다.
1994년 NASA에서 근무하던 토마스 스털링과 도날드 베커는 기성 PC와 쉽게 구할 수 있는 컴퓨터 부품으로 슈퍼컴퓨터를 만들 수 있다는 것을 증명해 보이기 위해 NASA 고다드 컴퓨팅센터와 계약을 맺고 10Mbps 이더넷과 인텔 486DX 계열의 CPU를 장착한 컴퓨터 16대를 연결하여 처음으로 베오울프 클러스터 컴퓨팅 기술을 개발하는 데 성공했다. 이 베오울프 클러스터 컴퓨팅 기술은 고성능 프로세서와 병렬 프로세서를 만들어 단일 컴퓨터의 성능을 높이는 기존의 방식에서 탈피하여 고성능 네트워크로 연결된 컴퓨터들을 통해서 컴퓨팅 성능을 높이는 경향의 시작이 된 중요한 기술이 되었다.
지금 우리가 겪고 있는 빅데이터 현상이 나타나게 한 기술적인 배경이 되는 사건이 바로 위의 토마스 스털링과 도날드 베커의 베오울프 클러스터 컴퓨팅 기술의 발명이다. 이 베오울프 클러스터 컴퓨팅 기술의 발명 전까지는 애플리케이션의 성능 향상을 위해 할 수 있는 소프트웨어 엔지니어의 역할이 특정한 하드웨어와 컴퓨터 아키텍처에 최적화된 소프트웨어를 어떻게 작성하느냐에 주로 초점이 맞추어져 있었다. 애플리케이션의 확장성(scalability)과 병렬처리에 대해서는 과학기술 계산(scientific computing)과 같은 특정한 영역을 제외한 나머지 비즈니스 응용 소프트웨어에서는 큰 관심사가 아니었다. 애플리케이션의 확장성과 병렬처리와 같이 현재 빅데이터 처리에 핵심이 되는 소프트웨어 기술들은 당시까지만 해도 크레이 슈퍼컴퓨터와 같은 아주 특별한 슈퍼컴퓨터 시스템에서 실행되는 소프트웨어에만 필요한 것이었다.
베오울프 클러스터 컴퓨팅 기술이 발명되고 나서부터 네트워크로 연결된 여러 대의 컴퓨터에 응용 소프트웨어의 기능들을 분산하여 실행하고, 이렇게 분산된 응용 소프트웨어 기능들이 네트워크로 서로 통신을 하면서 서로의 기능을 호출하고 조율하는 방식의 분산 컴퓨팅 소프트웨어 기술이 본격적으로 발전하게 되었다. 이렇게 분산 컴퓨팅 소프트웨어 기술이 본격적으로 발전하고, 비즈니스 환경에서도 쉽게 활용하여 응용 소프트웨어를 개발할 수 있도록 하는 CORBA와 같은 미들웨어 기술과 자바 언어를 중심으로 다양하게 개발된 원격 프로시저 호출(Remote Procedure Call; RPC) 등과 같은 분산 컴퓨팅 기술들이 과거에는 복잡한 계산을 하는 과학자들의 전유물로만 여겨졌던 병렬 컴퓨팅과 분산 컴퓨팅을 비즈니스 응용 프로그램의 영역으로 대중화하는 데 큰 역할을 하게 된다.
베오울프 클러스터 컴퓨팅 기술과 함께 현대 빅데이터 문제의 출현에 가장 많이 영향을 준 기술은 바로 웹(Web) 기술이다. 웹 기술은 전 지구적인 스케일(planet-scale)로 지식과 정보가 한데 엮일 수 있는 기술적인 기반을 제공하여 데이터양의 폭증에 크게 기여했을 뿐만 아니라, 폭증하는 지식과 정보가 비즈니스가 될 수 있도록 대중화한 기술이기도 하다.
현대 빅데이터 기술과 비즈니스의 롤모델로 자주 언급되는 구글이 바로 인터넷의 정보를 쉽게 찾아보고 활용할 수 있도록 하는 인터넷 검색 서비스에서 시작되었다는 것을 생각해보면 위와 같은 설명이 쉽게 이해가 갈 것이다. 구글의 인터넷 검색 기술은 전지구적인 스케일로 지구촌 여러 지역에 사는 사람들이 궁금해하고 알기 원하는 것을 검색창을 통해 구글에게 제공하게 함으로써 전세계 사람들이 어떤 것을 알고 싶어 하고 관심이 있으며 어떤 욕망을 가지고 있는지 자발적으로 구글에게 데이터를 제공하게 하였다. 성장세에 있던 인터넷상의 정보를 쉽게 검색하고 찾을 수 있게 하는 서비스를 제공함으로써 사용자에 대한 정보와 데이터를 손쉽게 수집할 수 있는 강력한 데이터 수집 방법이 된 것이다.
이렇게 전지구적인 스케일로 정보가 엮이게끔 하고, 검색 가능한 형태로 구조적으로 정보와 데이터가 표현되게끔 한 웹 기술은 전지구상의 정보를 일관된 방법으로 표현하고 공유, 수집할 수 있도록 한 강력한 기술이었다. 이런 웹 기술을 단순하고 효과적으로 쓸 수 있도록 한 구글의 검색 서비스는 구글의 지능형 서비스가 가능하도록 다양한 데이터를 수집할 수 있게 한 근본적인 기술이다.
웹 기술과 인터넷 검색 기술은 구글이 전지구적인 데이터를 수집할 수 있게 한 중요한 기술이지만, 구글이 현재의 위치에 서게끔 막대한 수익을 낼 수 있게 해준 기술은 인터넷 검색 기술이 아니라, 인터넷 검색 기술을 통해 수집한 데이터를 활용한 맞춤형 광고 서비스인 AdSense 서비스 기술이었다. AdSense 서비스가 제공하는 맞춤형 광고를 제공할 수 있도록 한 기술은 다름 아닌 기계 학습과 추천 기술 등의 인공지능 기술들이다.
과거에는 인터넷 검색 서비스를 제공하는 기업들이 인터넷 데이터를 수집한 후에 사용자의 필요에 맞게 분류, 편집하고 보여주는 작업을 사람들을 고용하여 작업하도록 했다. 복잡한 웹 문서와 정보를 검색 서비스 및 광고 서비스 사용자들의 필요에 맞게 분류하고 편집, 표현하는 과정을 자동화할 수 있는 컴퓨터 기술이 크게 발전하지 못했기 때문이다. 웹 기반 인터넷 붐이 일던 1990년대와 2000년대 초반에 인터넷 검색 서비스를 제공하던 야후(Yahoo)와 당시 유명했던 알타비스타(Alta Vista) 등의 검색 서비스와 달리 구글이 차별화되었던 것은 구글은 서비스 초반부터 기계 학습과 인공지능 기술을 써서 자동화의 수준을 꾸준히 높였다는 것이다.
현대적인 자동화된 사용자 의도 파악 및 분류, 그리고 추천 기술이 발전하기 전부터 구글은 서비스 초반부터 다른 인터넷 검색 서비스 포탈 정보들의 수준보다 다소 떨어진다고 하더라도 검색을 통해 제공되는 정보가 기계 학습과 인공지능 기술을 이용한 자동화된 기술을 이용해 제공되도록 꾸준히 기술 개발하였다. 이들 기계 학습과 인공지능 기술을 이용한 웹 데이터 처리 및 사용자 맞춤형 서비스 기술이 분산 컴퓨팅 기술을 통해 확장성 있게 향상되면서 점차 안정화되자 다른 검색 서비스 사업자들이 도저히 따라잡을 수 없는 수준으로 구글의 서비스 이용자 수는 폭증하기 시작했다.
위와 같이 지금 우리가 겪고 있는 빅데이터 현상이 일어나게 된 기술적인 배경을 정리해보자면 크게 세 가지 요인으로 정리할 수 있다. 첫번째로, 베오울프 클러스터 기술로 인해 시작된 고성능 분산 컴퓨팅 시스템 및 소프트웨어 기술의 발전, 웹 기술의 발전을 통한 전지구적인 확장성을 가지는 정보와 데이터의 조직, 그리고 기계 학습 및 인공지능 기술의 발전을 통한 빅데이터 처리 작업 자동화율의 비약적인 향상이 현재 우리가 겪고 있는 빅데이터 현상을 일으키게 한 근본적인 요인이라고 할 수 있다.
우리는 어떤 미래를 마주하고 있는가? – 빅데이터 트렌드를 이끄는 여섯 가지 현상들
그렇다면, 앞으로 우리가 보게 될 미래는 어떤 미래일까? 앞에서 현재 우리가 마주하고 있는 빅데이터 현상이 일어나게 된 기술적인 배경에 대해서 간단하게 살펴보았는데, 그럼 더 나아가 현재 우리가 마주하고 있는 현실을 고려했을 때 앞으로는 우리의 비즈니스가 이런 기술들로 인해 어떤 양식으로 바뀌어갈까? 최근 급격한 변화를 겪고 있는 산업과 비즈니스 전반의 현상들을 보면서 조직과 비즈니스를 책임져야 하는 리더들은 당연히 이런 의문을 품을 수밖에 없을 것이다.
최근 IT 기술 트렌드를 비즈니스에 적용하여 자사의 경쟁력을 높이려고 고민하는 전략가나 리더들은 IT 관련 미디어에서 이런 말들을 많이 들었을 것이다. 클라우드 컴퓨팅이 안정기에 접어들어 대세가 되고, 지금까지 빅데이터를 활용하는 기업들의 성과가 두드러지게 나타난 것이 없지만 부분부분 특정한 비즈니스 문제들에 대해서 특정한 빅데이터 기술을 활용한 성공 사례는 간간히 보고되고 있으며, IoT와 5G망을 통한 많은 사물들 간의 초연결이 우리의 생활과 비즈니스의 양상을 많이 바꾸어 놓을 것이다. 이에 더해, IoT로 연결된 사물과 사람 간에 대화 인터페이스를 통한 인공지능 기술을 통해서 더 편리하게 사물들을 조작하고 활용할 수 있는 시대가 곧 올 것이며, 첨단 인공지능 기술로 자동화되는 작업들로 인해서 기업의 업무 스피드가 높아지고 효율은 높아지겠지만, 과거 전통적인 일자리가 많이 사라져 사회 불안의 요인이 될 것이다. 이제 상용화될 양자컴퓨팅은 인공지능 기술을 획기적으로 발전시켜 이런 추세를 더 가속할 것이다.
위와 같이 클라우드 컴퓨팅, 빅데이터, IoT, 인공지능, 5G, 양자컴퓨팅이라는 말 하나하나마다 마치 전자 부품 하나를 다루는 듯한 느낌으로 거대 담론이 만들어지고 있는데, 사실은 각각의 단어 하나하나만 해도 넓은 영역의 기술들과 광범위한 이슈를 다루고 있는 거대 기술 담론을 상징하는 단어이다. 이렇게 논의되고 있는 거대 담론이 실제 우리 생활에 현실로 나타나기 위해서는 아직도 기술적으로 넘어야 할 난제들이 많으며, 아직도 많은 시간이 필요하다.
물론 기술의 발전은 선형적으로 이루어지지 않고 기하급수적으로 이루어지기에 어느 순간이 되어 특별한 기술적인 돌파구가 나타나게 되면 위 기술 하나하나가 급격하게 발전하면서 사회 변화의 양상이 급격하게 달라질 수 있다. 다만, 최근 미디어에서 논의되고 있는 모습을 보면 마치 위 기술들이 내일이라도 상용화되어서 기업들이 당장 도입하거나 활용하지 않으면 비즈니스 경쟁에서 도태될 것처럼 많이들 얘기하고 있어, 필자는 현실이 지나치게 왜곡되는 것은 아닌가 다소 걱정이 된다. 필자는 앞으로 남은 연재를 통해 독자분들께서 위의 거대 담론으로 논의되고 있는 IT 기술의 미래를 좀더 현실적으로 바라보고 조직과 비즈니스의 미래를 현실적으로 그려나갈 수 있도록 돕고자 한다.
위 기술 간의 상호 작용이 어떤 배경을 가지고 있는지, 현재 시점에서 미디어에서 얘기하고 있는 것과 실제 기술 수준이 어느 정도의 차이가 있는지, 기술의 장점과 한계는 무엇인지 앞으로 같이 살펴보려고 한다. 각 기술요소가 이런 기술적인 배경에서 어떤 역할을 하는지 살펴보면서 우리가 어떻게 미래를 준비해야 하는지 같이 살펴보려고 한다.

현재 시점에서 빅데이터를 활용하는데 가장 중요한 영향을 미치는 기술은 무엇보다도 유, 무선 통신 기술이다. 아직도 많은 기업 정보 인프라가 10Gbps 및 40GBps급 네트워크를 사용하고 있는 현실에서 유선 통신 기술은 100Gbps의 고대역폭, 고성능 네트워크가 이더넷과 인피니밴드(Infiniband), 인텔의 옴니패스(OmniPath) 등으로 상용화된 지 벌써 꽤 시간이 흘렀으며, 현재 1Tbps 대역폭을 실현하고 사업화하기 위해 벌써 나아가고 있다. 이더넷 기술의 발전을 위해 조직된 “이더넷 얼라이언스(Ethernet Alliance)”에서 발표한 “2019년 기술 로드맵(Ethernet Alliance’s 2019 Roadmap)”에 따르면 클라우드 컴퓨팅과 통신 서비스 사업자들이 곧 1Tbps급의 이더넷 기술이 필요할 것으로 전망하고 있다[2].
현재 400Gbps 및 200Gbps급의 물리 계층 표준을 정의한 IEEE 802.3bs, IEEE 802.3cd 표준이 2017년 12월 6일, 2018년 12월 5일 각각 승인되어 발표된 상황이며 2016년부터 시스코, 주니퍼와 같은 주요 네트워크 장비 업체들은 400Gbps 대역폭을 지원하는 백본 스위치 모듈을 벌써 상품화하여 공급하고 있다[3-5].

위 그림 2를 보면 차량용 이더넷 네트워크 기술의 대역폭 요구사항에서 눈에 띄는 부분을 하나 발견할 수 있는데, 바로 차량용 이더넷의 대역폭이 50Gbps까지 높아질 것으로 전망한다는 것이다. 현재 데이터센터에서 대부분 기업용 정보 시스템이 사용하는 것보다 더 높은 대역폭의 네트워크가 자동차 내에서 필요하다는 것이다. 자율주행과 커넥티드카, 그리고 차량 내 다양한 인포테인먼트 시스템을 위해 차량 내에서도 고대역폭 네트워크가 필요한 빅데이터가 발생하기 때문에 이런 전망을 하고 있다.
유선 통신뿐만 아니라, 무선 통신에서도 제공되는 대역폭이 급격하게 높아지고 있다. 우리나라에서 세계 최초로 상용화한 5G 통신만 해도 원래 목표는 10Gbps의 대역폭을 무선 통신으로 제공하겠다는 것이었다. 현재 상용화된 5G통신은 원래 목표보다 많이 하향화되어서 2~3Gbps 대역폭을 제공하는 기술로 우선 표준이 일단락되었지만, 28GHz 주파수 대역 기지국이 본격적으로 도입되는 3GPP 릴리즈 16 표준부터는 현재보다는 2~3배 높은 대역폭의 통신이 가능할 것으로 기대된다.
5G가 상용화된지 얼마 되지 않았음에도 6G 무선 통신 기술에 대한 관심이 급격하게 높아지고 있으며, 최근 미국, 중국을 중심으로 6G 무선 통신 기술을 선점하기 위한 관련 기관들의 발표가 연이어 나타나고 있다. 6G 무선 통신 기술은 2030년경에 상용화될 것으로 보이며, 100Gbps에서 1Tbps에 이르는 고대역폭과 1ms 저지연 통신을 제공하는 것에 대해서 벌써 논의하고 있다.
이렇게 5G, 6G로 대표되는 무선 통신과 테라비피에스(Terabps)급 이더넷 기술의 발전으로 인해 네트워크를 통한 컴퓨팅 및 IT 자원의 통합과 확장은 급격하게 빨라질 것으로 기대된다. 여기서 하나 주목해야 할 것은, 근거리 통신망(LAN)에서의 대역폭 확장뿐만 아니라 원거리 통신망(WAN)과 6G 및 차세대 Wi-Fi 기술에서도 고대역폭 통신이 지원되기 시작하면서 원거리에 있는 컴퓨팅 및 IT 자원이 클라우드 컴퓨팅 기술과 결합하여 컴퓨팅 자원의 공간적 제약을 극복하는 컴퓨팅 및 IT 서비스 기술로 급격하게 발전하리라는 것이다.
이렇게 네트워크 기술의 발전으로 인한 컴퓨팅 자원의 공간적 제약을 극복하는 자원 확장과 통합이 이루어지면서 클라우드 컴퓨팅 자원과 휴대용 단말과 사물인터넷 기기 등의 소형 컴퓨팅 장치, 그리고 자동차, 로봇, 인프라 등에서 나오는 데이터의 양과 복잡도가 지수적으로 급격하게 증가하게 되어 빅데이터 처리 기술에 대한 요구사항이 급격하게 높아지게 될 것이다. 또한 이런 네트워크 기술의 발전은 공간적 제약을 극복할 수 있는 IT 자원의 통합이 가능하도록 하여 빅데이터 처리를 위해 필요한 IT 자원을 끌어오기 쉽게 만들어 빅데이터의 활용을 쉽게 할 것이기 때문에 빅데이터 활용을 다시 촉진하는 촉매로서의 역할을 하여 빅데이터 기술의 발전을 가속할 것이다.
두번째로 우리가 주의 깊게 살펴보아야 할 현상은 인공지능 기술의 급격한 발달이다. 인공지능 기술을 지원하기 위한 확장성을 가지는 하드웨어 기술과 소프트웨어 기술이 작은 소자에서부터 대형 슈퍼컴퓨터급의 인공지능 연산이 가능하도록 하는 분산 컴퓨팅 소프트웨어에 이르기까지 전방위적으로 발전하게 되었다. 이 때문에 가능한 지능형 데이터 처리의 방법과 범위가 확장되면서 처리할 수 있는 빅데이터의 양과 속도도 급격하게 늘어나게 될 것이다.
요즘 딥러닝이 급격한 인기를 끌어 많은 기업과 국가에서 인공지능 기술을 대표하는 미래 성장 동력 기술로서 많은 투자를 하려고 하고 있지만, 앞으로 5년에서 10년 동안 주목해서 보아야 할 인공지능 기술은 딥러닝만은 아닐 것이다. 딥러닝, 정확하게는 심층신경망(deep neural network) 기술이 과거 인공지능 기술들이 해결하지 못했던 인간의 인지 현상 문제와 흥미로운 공학적인 문제를 많이 해결하여 많은 영역에서 기술적인 돌파구를 마련한 것은 사실이지만, 딥러닝 알고리즘만으로 모든 인공지능 문제를 해결할 수 있다고 보는 것은 과장된 측면이 있다.
딥러닝과 인공지능 기술이 앞으로 빅데이터를 활용한 비즈니스에서 활용도가 높아지고 이들을 활용한 빅데이터 비즈니스가 성공하기 위해서는 뇌과학과 양자컴퓨팅과 같은 차세대 컴퓨팅 기술의 발전이 필수적이다.
딥러닝 기술의 선구자이고 2019년 컴퓨터 과학계의 노벨상인 튜링상을 공동 수상한 뉴욕대 데이터 과학연구소와 페이스북 인공지능 연구소의 얀 르쿤(Yann LeCun) 교수는 딥러닝 기술이 꼭 인간 두뇌가 정보를 처리하는 모델과 똑같을 필요는 없고, 한동안은 공학적인 관점에서 활용도를 높이는 연구만으로도 충분하다고 언급한 적이 있다[7-8]. 이 말에 필자도 동의하지만, 딥러닝 알고리즘과 모델, 기술을 어떤 영역에서 더 잘 활용할 수 있을지 알기 위해서라도 뇌과학의 발전은 필요하다고 생각한다.
심층신경망 모델 자체가 인간 두뇌의 정보 처리 과정을 수학적으로 모델링하기 위해 고안한 신경망 모델에 기반을 두고 있고, 우리들의 뇌에 대한 이해가 넓어지면 넓어질수록 심층신경망 모델의 한계와 개선 방향을 더 잘 알 수 있을 것이기 때문에 뇌과학의 발전이 필요하다는 것이다. 심층신경망 모델로 인간과 똑같은 인공지능을 만들기 위해 뇌과학이 필요한 것이 아니라, 심층신경망 기술로 아직 하지 못하는 지능형 데이터 처리의 영역이 어느 영역이고, 왜 그런지를 이해할 수 있어야 심층신경망 기술을 또 다른 차원으로 발전시킬 수 있기 때문에 뇌과학의 연구가 필요한 것이다.
심층신경망 기술과 가장 밀접하게 연관이 있는 뇌과학 분야는 현재 국제적인 컨소시엄으로 대형 프로젝트가 진행되고 있는 “커넥톰 프로젝트(The Human Connectome Project)”이다. “커넥톰(connectome)”이란 인간 신경계의 신경세포들이 어떤 양상으로 연결되어 정보를 처리하는지 신경생물학적으로 연구하는 신경과학의 한 분야이다. 최근 커넥톰 프로젝트의 연구 성과들이 네이처와 같은 영향력 있는 학술지에 자주 발표되고 있다. 이런 커넥톰 프로젝트의 연구 성과들은 딥러닝 기술이 인간의 정보처리 능력을 더 실제와 같이 모델링하고 구현할 수 있도록 발전시키는 데 크게 도움이 되는 지식으로 활용될 것이다.
세번째로 우리가 앞으로의 빅데이터 활용과 관련해서 염두에 두어야 할 중요한 현상은 사물인터넷 기술과 엣지컴퓨팅(edge computing) 기술의 발전으로 인해 수요가 폭증하게 될 지능형 센서 때문에 모바일 네트워크로 전송되는 데이터의 양이 앞으로 오는 10년간 급격하게 늘어나리라는 것이다.
사물인터넷과 엣지컴퓨팅, 그리고 편재컴퓨팅(pervasive computing) 기술의 발전이 우리 생활에 가져오는 큰 변화는 크게 두 축이다. 먼저 우리 주변의 환경과 우리 자신에 대한 데이터를 더 정밀하고 풍성하게 수집하여 컴퓨터가 우리의 주변 환경과 우리 자신을 이해하기 위해 필요한 정보를 얻기가 쉬워진다는 것이다. 두번째로, 엣지컴퓨팅 기술의 발전으로 임베디드 시스템에서의 데이터 처리 능력이 향상되면서 휴대폰과 같은 단말뿐만 아니라 우리와 직접적으로 상호작용할 수 있는 디바이스와 사물의 행동 양상이 더 복잡해지고 지능화된다는 것이다.
위와 같은 변화는 많은 기업이 지능형 센서와 엣지컴퓨팅 디바이스로부터 사물인터넷을 통해 전송되는 막대한 양의 빅데이터를 효과적으로 처리해야 하는 요구사항에 직면하게 할 것이다. 이런 상황에서는 빅데이터를 효과적으로 처리하여 기업과 조직이 자신의 비즈니스 모델에 맞는 정보를 비즈니스 모델이 요구하는 응답성능에 맞게 추출하고 가공하여 사용자가 상호작용하는 단말과 디바이스, 또는 로봇과 같은 장치로 사용자의 요청에 맞는 서비스를 제공하는 일 자체가 기업과 조직의 기술적인 경쟁력으로서 자리 잡게 된다.
앞에서 살펴본 것과 같이 유무선 네트워크 기술과 대역폭이 아무리 발전하더라도 네트워크를 통해서 쏟아져 들어오는 데이터를 처리하는데 필요한 지연과 연산량을 확보하는 것은 별도의 기술력이 필요하게 된다. 이런 빅데이터 처리를 위한 컴퓨팅 능력(computing power)과 자원을 확보하는 것은 양자컴퓨팅과 같은 컴퓨터 아키텍처의 근본적인 변화를 가져오는 기술을 사용하는 것 외에는 현재 대부분 클라우드 컴퓨팅을 포함한 분산 컴퓨팅 소프트웨어 기술에 의존하기 때문에 앞으로 대부분 기업이 분산 컴퓨팅 소프트웨어 개발 역량을 갖춘 소프트웨어 엔지니어 인재를 어떻게 확보하느냐가 기술 경쟁력과 비즈니스 우월을 확보하는 데 큰 영향을 미치게 될 것이다.
네번째로, 클라우드 컴퓨팅 기술의 발전과 확산이 빅데이터 비즈니스에 필요한 컴퓨팅, 네트워크 자원을 활용하는 데 드는 어려움을 크게 감소시키면서 빅데이터 인프라를 설계하고 다루는 기술보다는 빅데이터 소프트웨어 기술을 비즈니스 요구사항에 맞게 다루는 기술과 역량이 더 부각되고 중요해질 것이다.
최근 클라우드 컴퓨팅이라는 말을 사람들이 쓰는 것을 가만히 관찰해보면 크게 두 가지 의미로 많이 쓰고 있는 것 같다. 첫번째로 서버, 저장장치, 네트워크 등의 IT 인프라와 웹애플리케이션 서버와 같은 개발용 플랫폼, 하둡 등의 빅데이터 소프트웨어를 포함한 IT 자원을 서비스 형식으로 필요할 때만 사용하는 전통적인 클라우드 컴퓨팅의 의미로 사용한다. 두번째로, 서비스-지향 아키텍처와 서비스-지향 컴퓨팅 패러다임을 따라 과거에는 인터넷 서비스 형태로 제공되지 않던 기능이나 서비스를 인터넷 서비스로 제공하는 것에 ~클라우드와 같은 식으로 클라우드라는 말을 붙여 사용한다.
필자가 얘기하고 싶은 클라우드 컴퓨팅은 첫번째 의미에서의 클라우드 컴퓨팅이다. 후자는 사실 클라우드 컴퓨팅이 아니라 서비스-지향 컴퓨팅인데, 요즘 클라우드 컴퓨팅이라는 말이 워낙 유행하다 보니 사람들이 혼용해서 쓰는 것으로 보인다.
클라우드 컴퓨팅은 우리가 CERN의 LHC 컴퓨팅 그리드 사례에서도 살펴보았듯이 그리드 컴퓨팅 환경에서 작업 실패율을 줄이기 위한 방법으로 가상 머신을 분산 컴퓨팅 계산 작업에 사용하면서 시작된 컴퓨팅 개념이라고 설명한 바 있다[10]. 그리드 컴퓨팅의 컴퓨팅 인프라 사용에서 주문형 자원 활용을 위한 서비스-지향 아키텍처 도입과 이에 따른 자원관리가 가상 머신과 리눅스 컨테이너 등의 가상화 기술이 들어가면서 유연한 작업 실행 환경과 자원 관리 기능이 더해져 클라우드 컴퓨팅이 된 것이다.
CERN의 LHC 컴퓨팅 그리드 사례에서도 살펴보았듯이 클라우드 컴퓨팅은 빅데이터 처리와 분석에 필요한 컴퓨팅 자원을 유연하고 확장성 있게 제공, 관리하기 위해 쓰이는 기술이다. 이런 측면에서 대표적인 오픈소스 클라우드 컴퓨팅 소프트웨어인 오픈스택(http://www.openstack.org)을 데이터센터 스케일의 웨어하우스 컴퓨터(warehouse computer) 운영체제라고 부르는 이유가 바로 이질적인(heterogeneous) IT 자원으로 구성된 데이터센터 자원을 가상화 기술로 동질화(homogenize)해서 데이터센터 스케일의 자동화된 자원 관리와 확장성을 추구하기 때문이다.
최근 클라우드 기술이 성숙해지면서 클라우드 컴퓨팅의 유연하고 확장성 있는 자원 활용의 장점이 극대화되어 많은 빅데이터 작업들이 아마존 웹 서비스나 마이크로소프트의 애저(Azure), 구글 클라우드 서비스 등의 퍼블릭 클라우드 서비스로 옮겨가는 추세인 것을 볼 수 있다. 이들 퍼블릭 클라우드 서비스들은 최근 딥러닝을 포함한 인공지능 기술도 클라우드화하여 빅데이터 처리 및 분석에 활용하기 위한 환경을 만들고 있어서 앞으로 클라우드 컴퓨팅은 빅데이터 활용에서 운영체제 수준의 필수적인 기술로 자리 잡을 것으로 보인다.
다섯번째로, P-RAM으로 대표되는 차세대 메모리 기술, 엔비디아의 NVLink와 같은 차세대 버스 기술의 발전이 네트워크 기술의 발전과 맞물려 데이터센터 컴퓨팅 자원의 계층이 서버 단위에서 랙과 클러스터 단위로 단순화되는 경향이다.
지난 9월 26일 한국에서 열린 인텔 메모리 앤드 스토리지 데이 2019 행사에서, 인텔은 최신 비휘발성 메모리 기술인 옵테인 메모리 개발 계획을 공개한 바 있다. 4~5년 전부터 인텔이 차세대 메모리 기술로 공개한 3D 크로스포인트(3D XPoint) 기술을 통해 인텔은 현재 삼성전자가 독주하고 있는 메모리 시장을 공략하려는 의지를 지속해서 보여왔다. 아직 DRAM 수준의 입출력 속도를 보이지는 못하지만 기존의 NVMe SSD보다는 1,000배 이상 빠른 입출력 속도와 내구성을 보이는 비휘발성 메모리이기 때문에 앞으로 DRAM을 대체하는 메인 메모리로 발전시키겠다는 것이 인텔의 계획이다.
인텔이 옵테인 제품을 앞세워서 기존 DRAM을 대체하는 메인 메모리 시장을 장악하겠다는 데에 의구심과 혹평을 보이는 사람들이 많다. 필자는 인텔이 옵테인 제품으로 DRAM으로 장악된 메인 메모리 기술을 대체하는 데 당장 성공하지는 못하더라도 컴퓨터 아키텍처에서 메인 메모리-영속성 메모리로 구분 지워진 메모리 계층(memory hierarchy)을 깨뜨리고 메모리 계층이 단순화된 부팅이 필요 없는 새로운 컴퓨터 아키텍처로 진화하는데 디딤돌 역할을 할 것이라고 확신한다. 기존의 휘발성 DRAM 메모리가 비휘발성 고용량 메모리로 대체되고, 메인 메모리-영속성 메모리 계층이 깨지면서 운영체제의 커널이 메모리에 로드되고 영속성 데이터가 메모리로 이동했다가 다시 삭제되는데 필요한 처리 지연이 없어진다면 기존의 많은 응용 프로그램들의 성능이 대폭 향상될 것이고 프로그래밍도 훨씬 단순해질 것이기 때문이다.
메인 메모리-영속성 메모리의 계층이 깨지게 되면 앞서 얘기한 클라우드 컴퓨팅이 빅데이터 처리와 분석을 위한 컴퓨팅 요구사항을 확장성 있게 만족하기 위해 필요한 노드 간 확장성을 높이기가 훨씬 쉬어 진다. 일반 개인용 컴퓨터를 사용하는 사용자들보다는 데이터센터 스케일의 서비스와 분산 컴퓨팅 시스템을 개발하는 기업들을 중심으로 옵테인 메모리의 수요가 급증할 것이기 때문에 옵테인 메모리의 상업화를 시작으로 컴퓨터 아키텍처의 중요한 계층 중의 하나인 메모리 계층에 큰 변화가 일어날 가능성이 높다. 이런 메모리 계층의 변화가 빅데이터를 위한 소프트웨어 기술과 빅데이터 서비스의 발전에 크게 영향을 미칠 것으로 기대된다.
여섯번째로, 양자컴퓨팅의 발전으로 컴퓨터의 연산 능력이 비약적으로 향상되면서 새롭게 컴퓨팅이 가능한 문제 영역들이 발견되고, 이를 활용해 수익을 창출할 수 있는 새로운 빅데이터 비즈니스 영역들이 나타나게 될 것이다.
양자컴퓨팅이 최근 1~2년 동안 급격하게 IT업계의 화제로 자리 잡고 있다. 불과 3년 전까지만 해도 양자물리학자들과 컴퓨터 과학자들을 중심으로 실험적인 큐비트(qubit) 연산과 양자 알고리즘을 중심으로 이루어지던 양자컴퓨팅 연구가 최근 1~2년 동안 상용화를 목표로 하는 프로젝트와 그 성과가 가시적으로 나타나면서 상용화에 대한 기대감이 기대보다 많이 높아졌다. 지난 10월 24일자 영국의 유명 과학 학술 저널 네이처지에는 구글의 존 마르티네즈(John Martinez) 교수 연구팀이 의사 난수 생성(pseudo random number generation)에서의 샘플링(sampling) 문제에서 양자 우월(quantum supremacy)을 달성했다는 논문이 실려 많은 사람들을 놀라게 하기도 했다.
양자컴퓨터의 실용화가 어려운 이유 중의 하나는 양자컴퓨터가 구체적으로 어떤 문제에서 현재 우리가 쓰고 있는 컴퓨터보다 더 나은 성능을 제공하는지 아직 알지 못한다는데 있다. 피터 쇼어(Peter Shor)의 큰 소인수 분해(prime factorization) 알고리즘과 로브 그로버(Lov Grover)의 검색 알고리즘을 제외하고는 눈에 띄게 실용성이 부각된 알고리즘도 아직 분명하지 않다. 이렇다 보니 양자컴퓨터의 아키텍처가 어떻게 디자인되어야 하는지 분명하지 않아 아직은 가능하면 많은 큐비트를 만들고 이를 조작, 제어할 수 있는 기계를 만드는 것에 초점이 맞추어져 있는 상황이다.
그럼에도 불구하고 한 가지 분명한 것은 양자컴퓨팅이 고전적인 컴퓨터보다 성능 면에서 분명히 나을 것이라고 여겨지는 분야가 있다는 것이다. 가장 대표적인 것이 최적화(optimization) 연산이다. 최적화는 특정한 제약(constraint)을 가진 목적 함수(objective function)의 값을 최대, 또는 최소화하는 최적의 모델 파라미터들의 값을 구하는 문제인데, 자연과학과 공학에서 널리 사용되는 대표적인 문제 중 하나이다. 큐비트가 가진 내재적인 병렬성을 이용하여 목적 함수의 지형(landscape)을 빠르게 탐색하면 최적화 연산 시간을 크게 줄일 수 있는 것이다. 앞에서 잠시 언급한 피터 쇼어의 큰 소인수 분해 알고리즘과 로브 그로버의 검색 알고리즘도 이 큐비트의 내재된 병렬성을 이용하는 알고리즘이다.
이 최적화 문제가 활용되는 대표적인 분야 중의 하나가 바로 인공지능이다. 인공지능 알고리즘 중에서도 통계적인 기계 학습과 신경망 또는 딥러닝 알고리즘에서는 최적화 연산이 중요한데, 바로 이 최적화 연산을 양자 컴퓨터로 수행할 수 있게 되면 기계 학습과 딥러닝 알고리즘의 성능을 대폭 향상하는 것이 가능하다. 이렇게 성능이 향상된 기계 학습과 딥러닝 알고리즘을 활용하면 빅데이터 비즈니스에서 데이터 처리, 분석과정의 자동화 성능과 효율을 크게 향상할 수 있기 때문에 양자컴퓨터의 혜택을 가장 많이 입는 분야 중 하나가 바로 빅데이터 비즈니스를 하는 기업들일 것으로 기대되고 있다.
지금까지 살펴본 여섯 가지가 앞으로 빅데이터 비즈니스의 성장과 확산에 크게 영향을 줄 주요 기술 트렌드들이다. 이 여섯 가지 트렌드가 빅데이터 비즈니스와 미래 IT 기술에 어떤 영향을 줄 것인지 같이 살펴보면서 우리가 어떻게 미래를 대비해야 하는지 같이 고민해보려고 한다.
위 여러 가지 트렌드 중에서도 눈에 띄는 것은 인공지능의 발전을 가속화하는 기술들이 최근 눈에 띄게 발전하고 있다는 것이다. 그렇다면, 조만간 세간의 언론에서 많이 언급되고 우려되고 있는 ‘초지능(super-intelligence)’ 같은 것이 조만간 출현해서 인류의 생존을 위협하게 될까? 인공지능이 알아서 데이터를 수집하고 가공, 분석해서 우리의 필요에 맞게 우리가 알고 싶은 모든 것을 알려주는 시대가 오면 데이터과학자는 빅데이터 비즈니스에서 필요 없는 것이 아닐까? 필자는 그럴 가능성은 매우 낮다고 보고 있다. 설사 그런 일이 일어난다고 해도 아주 먼 미래의 일일 가능성이 높고, 우리가 조만간 보게 될 세상에서의 인공지능 기술은 우리의 생활을 더 편리하고 풍성하게 할 가능성이 높다.
근 미래의 빅데이터 비즈니스에서 인공지능 기술이 데이터 수집, 처리, 가공, 분석 과정에서의 자동화와 새로운 통찰을 발견하는 데 많은 도움이 될 것은 사실이다. 그렇지만, 데이터과학자가 빅데이터 비즈니스 문제를 어떻게 풀 것인지 고민해서 해법을 찾아내고, 소프트웨어 엔지니어들이 인공지능 기술을 이용한 빅데이터 시스템을 디자인하고 구축하는 것과 같은 일들을 현재의 인공지능 기술이 대신하지는 못한다. 오히려 인공지능 기술이 빅데이터 비즈니스를 지원할 수 있도록 하는 빅데이터 IT 시스템을 디자인, 개발, 구축하고 이를 데이터과학에 활용하여 비즈니스 문제를 푸는 일을 하기 위해 필요한 데이터 과학자와 소프트웨어 엔지니어, 인공지능 기술 전문가의 수요가 폭증하여 IT 산업이 새로운 방향으로 크게 성장할 가능성이 높다.
인공지능 기술을 이용한 자동화로 인해 생기는 실직과 사회 문제는 인공지능 기술로 인해 새롭게 생겨나는 IT 산업의 기회와 성장을 통해 극복될 것으로 보인다. 하지만, 그 과도기에서 소외되고 피해를 입는 사람들이 생기는 것은 사실이기 때문에 이에 대한 사회적인 준비와 대책을 마련해야 한다. 인공지능 기술로 인해 생기는 사회 문제가 다른 방식으로 어떻게 극복될 가능성이 있는지도 앞으로 빅데이터 비즈니스의 미래를 고민하면서 같이 생각해보자.
필자는 위 여섯 가지 기술 트렌드로 바뀌게 될 미래에 기술이 가져다주는 새로운 기회와 열매를 우리가 맘껏 즐길 수 있을 것으로 생각한다. 위와 같은 트렌드로 바뀌게 될 빅데이터 비즈니스의 모습을 같이 생각해보면서 우리가 이 새로운 기회와 열매를 풍성하게 누릴 수 있는지 앞으로 같이 살펴보도록 하자.
[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Ethernet Alliance 2019 Roadmap, https://ethernetalliance.org/technology/2019-roadmap/ .
[3] Wikipedia, “Terabit Ethernet,” https://en.wikipedia.org/wiki/Terabit_Ethernet#cite_note-NGOATH-1 .
[4] High Capacity 400G Data Center Networking, https://www.cisco.com/c/en/us/solutions/data-center/high-capacity-400g-data-center-networking/index.html
[5] Juniper Networks Leads 400GbE Transition with Comprehensive Roadmap, https://investor.juniper.net/investor-relations/press-releases/press-release-details/2018/Juniper-Networks-Leads-400GbE-Transition-with-Comprehensive-Roadmap/default.aspx .
[6] Chris Jablonski, “Researchers to develop 1 Terabit Ethernet by 2015,” Emerging Tech, October 26, 2010. (https://www.zdnet.com/article/researchers-to-develop-1-terabit-ethernet-by-2015/)
[7] Yann LeCun on Deep Learning and Brain, Yann LeCun’s Facebook, December 11, 2017. https://www.facebook.com/yann.lecun/posts/10154948630217143 .
[8] Yann LeCun, “ Deep Learning and the Future of AI,” CERN Colloquium, March 24, 2016. (https://indico.cern.ch/event/510372/).
[9] Billy Tallis, “Intel Shares New Optane And 3D NAND Roadmap – Barlow Pass DIMMs & 144L QLC NAND in 2020,” AnandTech, September 25, 2019. (https://www.anandtech.com/show/14903/intel-shares-new-optane-and-3d-nand-roadmap)
[10] 김진철, “김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (1)”, CIO Korea, 2017년 9월 25일자. (http://www.ciokorea.com/column/35688)
*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. dl-ciokorea@foundryco.com