인튜이트(Intuit)의 빌 로콘졸로 데이터 엔지니어링 부사장은 '데이터 호수(Data Lake)'에 온 몸을 던졌다. 스마터 리
빅데이터와 애널리틱스, 클라우드 컴퓨팅 분야의 첨단 영역은 지금 이 순간도 변화하고 있다.
로콘졸로는 “계속 새로운 툴이 출현하고 있다. 과거에는 신기술이 성숙하기까지 몇 년이 걸렸다. 이제는 사람들이 몇 달이나 몇 주 만에 솔루션을 발전시킨다”고 말했다. 그렇다면 주시해야 할 최고의 신기술과 트렌드는 뭘까? 컴퓨터월드는 IT 리더, 컨설턴트, 업계 분석가들에게 비교 평가를 부탁했다.
1. 클라우드에서의 빅데이터 애널리틱스
2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상
3. 빅 데이터 호수(Big data lakes)
4. 예측 분석 적용의 확대
5. 더 빠르고 우수해지는 하둡의 SQL
6. 더 풍부하고 좋아진 NoSQL
7. 딥러닝(Deep Learning)
8. 인-메모리 애널리틱스
1. 클라우드에서의 빅데이터 애널리틱스
많은 데이터 세트를 처리하는 프레임워크이자 툴 세트인 하둡(Hadoop)은 원래 물리적 클러스터에서 작동하도록 설계돼 있었다. 그러나 지금은 아니다. 포레스터 리서치의 브라이언 홉킨스는 “클라우드에서 데이터를 처리하는 기술이 증가하고 있는 추세다”라고 말했다.
아마존 레드시프트(Redshift) BI 데이터 웨어하우스, 구글의 빅쿼리(BigQuery) 데이터 분석 서비스, IBM의 블루믹스(Bluemix) 클라우드 플랫폼, 아마존의 키네시스(Kinesis) 데이터 처리 서비스를 예로 들 수 있다. 그는 “온-프레미스(내부)와 클라우드가 결합된 형태가 빅데이터의 미래로 관측된다”라고 진단했다.
SaaS 기반 소매 분석, 분할, 마케팅 서비스 공급업체인 스마터 리마케터(Smarter Remarketer)는 최근 내부 기반 하둡과 몽고DB 데이터베이스 인프라스트럭처를 클라우드 기반의 데이터 웨어하우스인 아마존 레드시프트로 옮겼다.
이 인디애나에 소재한 기업은 온라인과 소규모 소매업체의 판매 및 고객 인구통계 데이터, 실시간 행위 데이터를 수집함으로써 소매업체들이 표적화된 메시지를 만들 수 있도록 실시간으로 정보를 분석하고 있다.
스마터 리마케터의 데이터 요구사항에는 아마존 레드시프트가 비용 효율적으로 판단됐다. 특히 구조화 데이터 보고 기능이 광범위했다. 또 호스팅 방식이기 때문에 확장성과 이용 편의성이 높다는 장점이 있다. 그는 “관리 측면에서 실제 머신을 구입하는 것보다는 가상 머신에서 확장을 하는 것이 더 저렴하다”라고 말했다.
캘리포니아 마운틴 뷰에 소재한 인튜이트는 안전하고, 안정적이고, 감사가 가능한 환경이 필요하다. 이에 따라 클라우드 애널리틱스를 조심스럽게 도입해 나가고 있다.
이 재무 소프트웨어 기업는 현재 프라이빗인 인튜이트 애널리틱스 클라우드에 모든 것을 보관하고 있다. 로콘졸로는 “현재는 높은 가용성과 안전한 분석이 가능한 퍼블릭과 프라이빗이 결합되어 있으며, 두 곳으로 모두 확장이 가능한 클라우드를 구현하는 방법을 찾기 위해 아마존, 클라우데라와 제휴를 했다. 그러나 아직까지는 완전한 해결책을 찾지 못했다”고 말했다.
그럼에도 불구하고 클라우드에서 실행되는 제품을 판매하고 있는 인튜이트 같은 회사는 클라우드로의 이전이 불가피하다고 판단하고 있다. 그는 “모든 데이터를 프라이빗 클라우드로 옮기기에는 언젠가 비용상의 제약에 부딪히게 되기 때문이다”고 설명했다.
2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상
맵리듀스(MapReduce) 등의 분산형 애널리틱스 프레임워크가 분산형 자원 관리자로 발전을 하면서, 하둡이 범용 데이터 운영체제로 부상하고 있다. 홉킨스는 “분산형 파일 저장 시스템으로 하둡에 추가시킴으로써 다양한 데이터 처리 및 분석 작업을 할 수 있다”라고 설명했다.
이는 기업에 어떤 의미가 있을끼? SQL, 맵리듀스, 인메모리, 스트림 프로세싱, 그래프 애널리틱스, 기타 워크로드를 하둡에서 적합한 성능으로 처리할 수 있게 됨에 따라, 하둡을 기업용 데이터 허브로 이용하는 기업들이 증가하게 된다.
홉킨스는 “하둡에서 여러 데이터 쿼리와 작업을 처리할 수 있게 되면, 하둡은 기업들이 분석하고 싶은 데이터를 낮은 비용에 보관할 수 있는 범용 저장소가 된다”라고 설명했다.
인튜이트는 이미 하둡 기반 환경을 구축하고 있는 중이다. 로콘졸로는 “맵리듀스 및 하둡과 밀접히 연동되는 하둡 분산형 파일 시스템(Hadoop Distribution File Systems)을 기반으로 모든 형태의 사람, 제품 접촉을 구현하는 장기 전략을 세웠다”라고 말했다.
3. 빅 데이터 호수(Big data lakes)
기존 데이터베이스 이론에 따르면, 데이터 세트를 설계한 후 데이터를 입력한다. 그런데 프라이스워터하우스쿠퍼스(PwC)의 미국 컨설팅 부문 수석 기술자인 크리스 큐란에 따르면, 데이터 호수(엔터프라이즈 데이터 호수, 엔터프라이즈 데이터 허브)가 이 모델을 뒤집고 있다.
큐란은 “그냥 데이터 소스를 가져와 하둡 저장소에 집어 넣으면 된다. 그 전에 데이터 모델을 계획할 필요가 없다”고 설명했다.
데이터 호수는 가져올 데이터를 고수준으로 정의하고, 데이터를 분석하는 툴을 제공할 수 있다. 그는 “데이터를 가져온 다음 목적을 정하는 방식이다. 대형 데이터베이스를 아주 점진적이면서 유기적으로 구축하는 모델이다”고 설명했다. 단점은 이를 사용하는 사람들이 우수한 능력을 갖고 있어야 한다는 것이다.
로콘졸로에 따르면, 인튜이트는 인튜이트 애널리틱스 클라우드 구성 요소 중 하나로 클릭스트림 사용자 데이터와 엔터프라이즈 데이터, 서드파티 데이터가 들어 있는 데이터 호수를 갖고 있다. 그리고 현업 부문 사람들이 이를 효율적으로 이용할 수 있도록 관련 툴을 보급하는데 초점을 맞추고 있다.
로콘졸로는 하둡에 데이터 호수를 구축할 때 문제들이 있다며 이 중 하나는 이 플랫폼이 아직은 엔터프라이즈급은 아니라는 것이라고 말했다.
그는 “기존 데이터베이스들이 수십 년 동안 갖고 있던 기능을 당연히 원한다. 액세스 관리, 암호화 모니터링, 데이터 보안, 소스에서 목표까지의 데이터 추적 등의 기능이다. 그러나 이러한 기능들은 아직 준비되지 않고 있다”라고 설명했다.
4. 예측 분석 적용의 확대
빅데이터 기술의 부상으로 애널리스트들은 처리해야 할 방대한 데이터와 함께 많은 레코드를 처리할 수 있는 처리력을 갖게 됐다. 전통적인 기계 학습에는 전체 데이터 세트에서 뽑은 표본을 대상으로 한 통계 분석이 사용된다. 홉킨스는 “이제 아주 많은 레코드, 그 레코드의 아주 많은 속성을 처리할 능력을 갖게 됐다”라고 진단했다.
애널리스트들은 빅데이터와 컴퓨팅 파워를 결합해 방문한 웹사이트 등과 같은 새로운 행동 데이터를 탐구할 수 있다. 홉킨스는 이를 ‘희박한 구조의 데이터(Sparse data)’로 부른다. 관심이 있는 데이터를 찾기 위해 중요하지 않은 여러 많은 데이터를 조사해야 하기 때문이다.
그는 “기존에는 이런 유형의 데이터에 전통적인 기계 학습 알고리즘을 적용할 생각조차 할 수 없었다. 불가능하기 때문이다. 이제는 저렴해진 컴퓨팅 파워로 이런 문제에 접근하고 있다”고 말했다.
애보트는 “속도와 메모리가 큰 문제가 되지 않을 경우, 완전히 다른 방식으로 문제에 접근한다. 이제 문제에 많은 컴퓨팅 리소스를 투입해, 분석에 최상인 변수를 찾아낼 수 있다. 이는 진정한 ‘게임 체인저’다”라고 말했다.
로콘졸로는 “우리는 동일한 하둡 코어에서 실시간 분석과 예측 모델링을 구현하는데 관심을 갖고 있다”고 전했다. 그러나 속도가 문제다. 하둡은 문제에 대한 답을 찾는 시간이 기존 기술보다 최대 20배가 더 길기 때문이다.
이를 해결하기 위해 인튜이트는 대형 데이터 처리 엔진인 아파치 스파크(Apache Spark)와 관련 SQL 쿼리 툴인 스파크 SQL을 테스트하고 있다. 로콘졸로는 “스파크는 빠른 인터랙티브 쿼리, 그래프 서비스, 스트리밍 기능이 특징이다. 하둡에 데이터를 보관하지만, 갭을 극복할 수 있는 성능을 제공한다”라고 설명했다.
5. 더 빠르고 우수해지는 하둡의 SQL
능력 있는 개발자와 수학자는 하둡에 데이터를 저장해 어떤 분석이든 수행할 수 있다. 하둡은 이런 잠재력을 갖고 있다. 그러나 가트너의 마크 베이어 애널리스트에 따르면, 이는 문제점이기도 하다.
그는 “데이터를 내게 친숙한 형식과 언어 구조로 바꿔줄 사람이 필요하기 때문이다”고 설명했다. 다른 언어들로도 작업이 가능하지만 하둡용 SQL이 유용한 이유가 여기에 있다. SQL 같은 쿼리를 지원하는 툴들은 SQL을 알고 있는 현업 사용자가 데이터에 동일한 기법을 적용할 수 있도록 해준다.
홉킨스는 하둡용 SQL이 기업용 하둡 기술의 기회를 만들었다고 진단했다. 과거 하둡을 사용한 기업과 달리 자바(Java), 자바스크립트(JavaScript), 파이톤(Python)을 이용해 스크립트를 쓸 수 있는 고급 데이터 과학자와 비즈니스 애널리스트를 채용하기 위해 투자할 필요가 없기 때문이다.
새로운 툴들은 아니다. 아파치 하이브(Apache Hive)는 예전부터 구조화된 SQL과 닮은 하둡용 쿼리 언어를 공급했었다. 그러나 클라우데라, 피보탈(Pibotal) 소프트웨어, IBM 등의 성능이 더 높고, 속도가 빨랐다. 이는 한 가지 질문을 묻고, 답을 얻고, 다시 다음 질문을 묻는 반복 분석에 더 적합한 기술들이다.
기존에는 데이터 웨어하우스 구축에 이런 형태의 작업들이 필요했었다. 홉킨스는 “최소한 가까운 장래에는 하둡용 SQL이 데이터 웨어하우스를 대체하지는 않을 것이다. 그러나 특정 애널리틱스에 있어서는 더 저렴한 소프트웨어와 어플라이언스에 대한 대안을 제공한다”라고 설명했다.
6. 더 풍부하고 좋아진 NoSQL
전통적인 SQL 기반 관계형 데이터베이스의 대안인 NoSQL(Not Only SQL) 데이터베이스가 특정 애널리틱스 분야의 툴로 급속히 인기를 끌고 있다. 큐란은 앞으로도 이런 모멘텀이 계속 커질 것이라고 내다봤다.
현재 오픈소스 NoSQL 데이터베이스는 15-20 종에 달하는 것으로 추정된다. 각자 ‘전문 분야’가 있는 것이 특징이다. 예를 들어, ArangoDB 같이 그래프 데이터베이스 기능이 있는 NoSQL 제품은 관계형 데이터베이스보다 더 빨리, 더 직접적으로 고객과 세일즈 담당자의 관계 네트워크를 분석한다.
큐란은 “이런 데이터베이스는 과거부터 존재했다. 그러나 사람들이 이런 류의 분석을 필요로 하면서 관심을 끌고 있다”고 말했다. 그에 따르면 PwC의 신흥 시장 고객 중 하나는 진열된 제품, 고객이 이를 선택하기까지의 시간, 특정 진열대에서 머무는 시간을 조사하기 위해 진열대에 센서를 부착했다.
큐란은 “이들 센서의 데이터가 기하급수적으로 증가하고 있다. 여기에 적합한 데이터베이스는 레디스(Redis) 같은 NoSQL 키-값 쌍 데이터베이스이다. 이를 위한 경량의 고성능 데이터베이스이기 때문이다”라고 설명했다.
7. 딥러닝(Deep Learning)
신경망을 기반으로 하는 머신 학습 기법 세트인 딥러닝은 아직 진화 중인 기술이지만, 현재로서도 비즈니스 문제 해결에 큰 잠재력을 보여주고 있다. 홉킨스는 “딥러닝은 컴퓨터가 특정 모델이나 프로그램 명령 없이 대량의 비구조화, 바이너리 데이터에서 관심 대상을 인식해 관계를 추론할 수 있도록 해준다”고 설명했다.
예를 들어, 위키페디아(Wikipedia) 데이터를 조사한 딥러닝 알고리즘은 스스로 캘리포니아와 텍사스가 미국의 주라는 사실을 학습할 수 있다. 홉킨스는 “주와 국가라는 개념을 이해시키는 모델을 개발할 필요가 없다. 이것이 기존 머신 학습과 새로운 딥러닝의 큰 차이다”고 말했다.
그는 또 “빅 데이터는 딥러닝 같은 첨단 분석 기법을 이용해 다양하고 많은 비구조화 텍스트를 처리할 수 있게 된다. 우리가 이제 막 이해하기 시작한 방식이다”라고 덧붙였다.
예를 들어, 특정 비디오의 물체, 색상, 형태, 사진 속 고양이의 존재 여부 등 여러 다양한 데이터를 인식하도록 만들 수 있다. 구글이 2012년 개발한 유명한 신경망이 여기에 해당된다. 홉킨스는 “인지적 관여(cognitive engagement), 고등 분석 등이 중요한 미래 트렌드다”라고 강조했다.
8. 인-메모리 애널리틱스
분석 처리 속도를 높이기 위해 인-메모리 데이터베이스를 사용하는 사례가 증가하고 있다. 베이어는 환경이 맞는다면 큰 도움이 된다고 진단했다. 실제로 이미 많은 기업들이 동일한 인-메모리 데이터베이스에서 트랜젝션과 분석을 처리하는 HTAP(Hybrid Transactions and Analytic Processing)을 이용하고 있다.
하지만 HTAP에는 ‘과대 선전’도 많으며 이로 인한 낭비 사례도 곧잘 있다. 예를 들어, 사용자가 하루 동안 여러 차례 동일한 방식으로 동일한 데이터를 관찰하고, 데이터가 크게 바뀌지 않는 시스템의 경우, 인-메모리는 돈 낭비다.
HTAP로 더 빨리 분석을 처리할 수 있지만, 그러기 위해서는 모든 트랜젝션이 동일한 데이터베이스를 기반으로 하고 있어야 한다. 베이어의 설명에 따르면, 이와 관련한 문제가 있다. 바로 지금은 여러 시스템의 트랜젝션을 한데 모아 분석을 해야 하는 경우가 많다는 것이다.
베이어는 “모든 데이터를 한 데이터베이스에 통합해야 하는 것이 잘못됐다. 모든 분석에 HTAP를 이용하고 싶다면, 모든 트랜젝션이 한 장소에 기반을 두고 있어야 한다. 그렇다 하더라도 다양한 데이터를 통합해야 한다”고 설명했다.
더 나아가 인-메모리 데이터베이스를 도입했다는 것은 관리, 보안, 통합 및 확장 방법을 파악해야 할 또 다른 제품이 생겼다는 의미이다.
인튜이트는 스파크를 사용하면서 인-메모리 데이터베이스를 서둘러 도입할 필요를 없앴다. 로콘졸로는 “스파크 인프라스트럭처에서 유즈 케이스의 70%를 해결할 수 있고, 인-메모리에서는 100%를 처리할 수 있다면, 우리는 70%를 선택할 것이다. 따라서 실험을 하고, 준비가 됐는지 확인할 계획이다. 그러나 지금 당장은 인-메모리 시스템을 추구하고 있지 않다”고 말했다.
한 발 앞선 대비가 필요하다
빅 데이터와 애널리틱스 분야에 새로운 트렌드가 많이 부상하고 있는 가운데, IT 조직들은 애널리스트와 데이터 과학자들이 향후 실험을 할 수 있는 환경을 조성할 필요가 있다. 큐란은 “이들 기술을 평가, 실험하고, 궁극적으로 일부를 비즈니스에 통합할 방법이 필요하다”고 말했다.
베이어 또한 “IT 관리자와 전문가들은 기술이 성숙하지 않았다는 이유로 실험까지 중단할 수는 없다”고 강조했다.
초기에는 우수한 애널리스트와 데이터 과학자 등 소수만이 실험을 해야 한다. 그런 후, 고급 사용자와 IT가 함께 새 기술을 조직의 나머지에 전달할 시기를 결정해야 한다. IT가 최대한 빠른 속도로 기술을 도입하고 싶어하는 애널리스트들을 제한해야 한다는 의미는 아니다. 베이어는 IT가 애널리스트와 협력해, 다양한 속도로 신기술을 도입해야 한다는 의미라고 말했다.
dl-ciokorea@foundryco.com