자세히 보기

By CIOKR Staff

벤더 기고 | 일상으로 파고든 고급 분석

기획
2016.06.277분

지난 3월 알파고가 프로 바둑기사인 이세돌과 벌인 대국에서 4대 1로 승리했다. 알파고는 사람처럼 학습할 수 있으며 수백만 번의 대국을 치

빅데이터라는 말이 유행한 지 수년이 지난 현재, ‘고급 분석’은 산업 현장에 이미 침투해 있고 곳곳에서 그 사례를 찾아볼 수 있다. 기업들은 임베디드 기기의 센서에서 수집한 엔지니어링 데이터부터 구매 이력 등의 비즈니스 데이터까지 다양하고 많은 양의 데이터를 수집해 분석하기 시작했다. 다양한 형태의 대용량 데이터를 신속하게 처리하고 분석할 수 있는 빅데이터가 엔지니어링이 주도하는 고급 분석으로 변모할 수 있는 것은 기술의 발전 덕분이었다.

왜 엔지니어링 고급 분석인가?
고급 분석이란, 복잡한 시스템에서 강력한 통계적인 데이터 분석 기법을 이용해 어떤 일이 일어났는지를 파악하고, 그로 인해 앞으로 어떤 일이 일어날지를 예측하며, 구체적으로 어떻게 대응하거나 어떤 결정을 내릴지 제안하는 것이다.

그렇다면, 빅데이터 분석과 엔지니어링이 주도하는 고급 분석은 어떻게 다른가? 전통적인 데이터 분석 시스템은 거래 데이터 같은 비즈니스 데이터를 분석하는 데 익숙하며 카메라 등 다른 임베디드 기기에서 수집한 데이터를 제대로 소화하지 못하고 놓치는 경우가 많다. 하지만 엔지니어링이 주도하는 고급 분석에서는 빅데이터보다 훨씬 더 많은 정보를 취합할 수 있다.

비디오 데이터를 예로 들면, 단순히 트랜잭션 데이터보다 훨씬 더 많은 정보를 추출할 수 있다. 여기 어떤 차가 있다고 가정하자. 그 차가 어떤 차인지 알아볼 때 색깔, 형태는 눈으로 확인할 수 있는 정보다. 하지만 머신러닝을 도입하면 그 차가 어떤 색인지를 인지하지 않아도 자동으로 분류할 수 있다. 백화점에서 이를 응용한다고 가정하면, 주차장에 차가 들어오는 순간 그 차가 벤츠인지, BMW인지를 인식하고 후에 머신러닝을 이용해 벤츠를 타는 사람은 주로 어떤 상품을 구매하는지를 알 수 있다. 이는 고차원 분석이다.

그림 | 엔지니어링이 주도하는 고급 분석 부상

엔지니어링이 주도하는 고급 분석이 등장하게 된 배경에는 빅데이터, 컴퓨팅 파워, 머신러닝이 있다. 과거에는 사용자, 기술, 영역 모두 제한적이었다. 데이터를 다루는 사용자도 제한적이었고, 이들이 엔지니어링 데이터, 비즈니스 데이터, 트랜잭션 데이터를 모두 취급할 수 있는 것은 아니었다. 또 데스크톱에서 처리하던 것에서 이제는 하둡을 지원하고 신속하며 최적화된 클러스터링 PC, GPU(Graphic Process Unit), 클라우드 컴퓨팅으로 빅데이터를 분석할 수 있게 돼 컴퓨팅 파워 면에서도 크게 개선됐다. 여기에 머신러닝까지 더해져 신경망, 클래시피케이션(Classification), 클러스터링, 회귀분석 등으로 한층 더 고도화된 분석 기능을 갖추게 됐다.

물론 이 같은 고급 분석을 가능케 하려면 기업에는 대용량 데이터를 보관하고 유지하는 데 비용 부담이라는 압박이 있다. 기업은 많은 데이터 가운데 어떤 데이터를 취하고 어떤 데이터를 버릴지 구분해야 한다. 이렇게 데이터를 구분한 다음 예측 모델을 만들어 어떤 데이터가 가치 있고 상관관계가 있는지 인식하는 워크플로우를 거쳐야 한다. 임베디드 시스템의 센서에서 데이터를 수집하는 단계에서 결정해 취합할 수 있다.

기업에 이미 딥러닝과 관련해 필요한 데이터가 있지만, 이들이 서로 다른 형태로 저장돼 있고 또 여기저기에 흩어져 있다는 것이 문제다. 때문에 기업은 중앙에서 데이터를 보관할 수 있는 데이터 리포지트리에 투자해야 한다. 또 데이터를 변환, 이전, 조정하는 작업을 통해 서로 잘 맞게 모을 수 있는 시스템도 필요하다. 이밖에 기업 내 데이터양 자체가 적어 아직 측정하고 보관하지 못하고 있다면, 데이터를 측정하고 보관할 시설도 필요하다.

데이터를 얻는데도 시간이 걸린다. 기업의 데이터는 그 조직의 사업경력과도 관련이 있다. 오래된 회사일수록 쌓여 있는 데이터도 많을 것이다. 하지만 사업경력에 비해 데이터양이 적다면 데이터에서 얻는 가치를 인지하지 못해 거기에 투자하지 않는 것으로 생각해 볼 수 있다.

데이터에 가치가 있다는 신념을 갖는 문화도 필요하다. 데이터 분석에서 얻은 통찰력이 아닌, 직관이나 관행에 따라 의사결정을 내리는 기업을 볼 수 있다. 이런 기업들에는 ‘시스템을 통해 꾸준히 학습해 경험을 쌓으라’고 조언하고 싶다.

매스웍스의 고객사 중에 소매업에 종사하는 회사가 있는데, 이 회사가 보유한 많은 데이터를 기반으로 더 나은 전략을 수립하기 위해 예측모델을 만들었다. 처음에는 고객사가 이 모델을 믿기 어렵다고 했다. 왜냐하면 소규모 데이터를 가지고 그에 기반해 결정한다고 생각했기 때문이다. 물론 데이터 세트 전체를 보고 내린 결정과 하나의 데이터 세트를 보고 내린 결정은 다를 수밖에 없다. 데이터를 분석해 예측 모델을 통해 결정한 것을 신뢰하고 기다려주는 것도 필요하다.

에너지 절감, 안전 주행, 기계 고장 예측까지 다양한 사례들
이미 선도적인 기업들은 엔지니어링이 주도하는 고급 분석을 사용하고 있다. 에너지 사용량을 25% 절감한 호주의 회사 빌딩IQ(Building IQ)의 사례를 보자. 이 회사는 에너지 회사, 건물, 에너지 비용, 일기 예보 등의 데이터를 수집해 머신러닝 시스템으로 한데 모은다. 이 회사는 실내 온도 변화에 따라 사람들이 어떻게 느끼는지를 파악하고 이와 연결해 건물을 상황을 제어했다. 사람들은 보통 아침 일찍 에어컨을 켜고 밤에 끈다. 빌딩IQ는 복잡한 데이터 학습을 통해 실시간으로 최적화된 온도를 찾아내는 알고리즘을 이용했다.

또 다른 재미있는 사례가 있다. 스웨덴 트럭 제조사인 스카니아(Scania)는 센서 퓨전과 고급 분석을 이용해 장애물을 감지해 차를 멈추게 했다. 여기서 중요한 것은 2개의 센서에서 취합한 데이터로 하나의 ‘사실’을 인지한다는 점이다. 여기에는 레이더와 카메라가 있는데, 레이더는 앞에 있는 사물과 내 차가 얼마나 떨어져 있고 얼마의 속도로 어느 방향으로 움직이는지를 감지한다. 카메라는 그 사물이 무엇이고, 크기가 어느 정도인지를 파악한다. 이 2개의 임베디드 기기에서 취합한 데이터를 결합해 안정적인 시스템을 만들어 40톤 트럭이 달리다 앞에 있는 자동차를 발견하고 자동으로 멈출 수 있다. 스카니아는 이 시스템을 구축하기 위해 정말 많은 데이터를 저장했고 예측 모델을 만들어 트럭에 탑재했다.

그림 | 엔지니어링 데이터 vs. 비즈니스 데이터 사용 현황 

몬디(Mondi)라는 독일 회사의 폴리머공장에는 100개 이상의 기계가 데이터를 로깅하고 있다. 사람이 공장을 돌아보면서 기계 고장 여부를 판단하는데, 여기에 한 가지 문제점은 비용이 많이 든다는 것이다. 이 회사는 기계 고장 여부 판단을 시스템으로 대체했고, 이를 위해 데이터를 분석해 언제 기계가 고장 날지를 예측한다. 몬디는 각 기계의 센서에서 취합한 데이터로 이 기계가 언제쯤 고장 날지를 예측해 그 전에 부품을 교체한다거나 수리해 조처할 수 있었다. 제품관리 차원에서도 가치를 얻게 해 준다.

가트너에 따르면, 현재 기업들은 트랜잭션 데이터 사용 비중이 높지만, 앞으로는 센서 데이터의 사용비중이 더 높아질 전망이다. 또 비디오, 오디오, 이미지 데이터도 현재는 잘 사용하지 못하지만, 앞으로 사용할 계획으로 조사됐다.

한편, 자동차, 항공학, 소매, 금융, 의료, 인터넷, 산업자동화, 석유/가스, 의료 장비, 청정에너지 등의 산업에서는 이미 센서 데이터가 쓰이고 있다.

누구나 데이터 분석의 수혜자가 될 수 있다
데이터 과학자에게는 산업에 관한 전문적인 지식, 코딩과 시스템 통합 기술력, 통계와 수학적인 지식 기반이 필요하다. 현재 전세계적으로 데이터 과학자가 부족한 상황이다. 많은 대학들이 관련 프로그램을 확대하고 개발 과정을 만들고 있지만, 산업 현장에 바로 투입할 수 있는 인재들은 여전히 부족하다. 기업의 경우 기존 인력을 재훈련해 분석 기술력을 갖추도록 해야 한다. 매스웍스는 이 일을 기업과 함께할 수 있고 실제로 그렇게 하고 있다.

기업 내 데이터 과학자를 양성하는 데는 시간이 걸린다. 내부에 기술력을 갖춘 사람이 있는지부터 알아봐야 한다. 없다면, 기업 내 어떤 사람을 데이터 과학자로 양성해야 할까? 우선, 특정 부서에 국한하지 않고 사람을 찾아야 한다.

중요한 점은 새롭게 일하는 방식을 받아들이는 것이다. 목적을 분명하게 이해하고 결과가 무엇인지를 정확히 아는 것도 알아야 한다. 서로 다른 많은 방법으로 신속하게 시도해 보고 실험해 볼 수 있어야 한다. 기업은 데이터 과학자가 실험하고 시도할 수 있도록 시간을 허락해 줘야 한다. 사람들 간의 실력 차이는 당연히 존재할 수 있으며 이는 훈련이나 온라인 과정으로 충분히 극복할 수 있다.

매스웍스는 데이터 과학자 양성을 위해 여러 가지 분야에 투자하는데, 그중 하나가 매시브 온라인 코스(Massive Online Course)다. 여기서 수십만 명이 수업을 들을 수 있고, 수강생들은 여기서 쌓은 경험을 사업에 적용할 수 있다.

그림 | 데이터 과학자에 필요한 3가지 

씽스피크(ThingSpeak)라는 학생용 커뮤니티가 있는데, 이 커뮤니티의 플랫폼에는 매트랩이 구축돼 있다. 학생들은 여기서 매트랩 스크립트와 시각화 기능도 사용할 수 있다. 필자는 영국에 있는 자택의 태양열 에너지 시스템을 설치해 사용하는데, 여기서 가져온 데이터를 모니터링하고 분석할 수 있다. 집에서 온수를 24~60도로 데워서 가족들이 사용하는데, 온수가 부족할 경우 이를 알려준다. 이때 어떻게 조처할지를 결정할 수 있고, 만약 보일러 자체가 고장이 나더라도 메시지를 보내준다. 씽스피크의 시뮬링크에서 임베디드 코드를 생성할 수 있고, 라즈베리파이를 이용해 코드를 만들 수도 있다.

필자는 개인적으로 사람들이 데이터 분석을 직접 배워볼 것을 권하고 싶다. 실생활에 적용할 수 있는 사례를 들자면 요즘 대부분의 사람들이 보유한 스마트폰에 연결할 수 있는 이경(귀속을 보는 현미경)을 들 수 있다. 귀에 염증이 있을 때 이 이경으로 사진을 찍어서 의사에게 전달하면 환자의 연령, 행동패턴 등의 메타데이터를 결합 및 분석해 의사가 치료여부를 결정할 수 있도록 돕는 것이다. 이 의료장비는 저렴하고 사용하기 편리한 데다 의사와 환자 모두에게 이익이 된다.

* 본 기고문은 매스웍스 크리스 헤이허스트 컨설팅 서비스 이사의 발표를 기반으로 작성됐다. dl-ciokorea@foundryco.com