기업 내 데이터를 활용함에 있어 걸림돌로 손꼽히는 과정이 ‘데이터 준비’(Data preparation)다. 올바른 데이터 준비 도구를 선택하면 이 어려운 난관을 돌파하는데 큰 도움이 된다.
데이터 분석(애널리틱스)의 혜택을 실현시키기 위해 가장 먼저 할 일은 데이터를 제대로 준비하는 것이다. 그렇지만 가트너의 최근 조사 결과에 따르면, 데이터 준비가 중대한 ‘장애물’인 기업과 기관이 많다. 70%의 시간을 데이터 준비 활동에 쏟고 있는 것으로 조사됐다.
가트너가 발행한 ‘데이터 준비 도구에 대한 시장 가이드(Market Guide for Data Preparation Tools)’의 책임 저자인 가트너 데이터 & 분석 팀의 에티샴 자이디 시니어 디렉터 애널리스트는 “과거나 지금이나 적합한 인재를 활용해 시기 적절하게 데이터를 찾고, 여기에 접근하고, 정제(클리닝)하고, 변환하고, 공유하는 작업이 주요 장애물 중 하나다”라고 말했다.
즉 애널리틱스로 비즈니스를 트랜스포메이션하기 원하는 기업이 먼저 해결해야 할 문제는 AI에 대해 정통해지는 것보다 데이터 파이프라인에 대해 정통해지는 것이다.
히타치 반타라(Hitachi Vantara)의 조나단 마틴 최고 마케팅 책임자(CMO)는 “가장 힘든 부분이 데이터 준비이다. 데이터가 위치한 장소를 어떻게 파악할까? 포트폴리오를 구축할 수 있을까? 자동화된 방식으로 모든 데이터 소스를 함께 연결하고, 관리 및 통제된 방식으로 데이터를 적합한 장소, 사람, 머신에 제때 전달할 수 있는 파이프라인을 만들 수 있을까? 이런 부분들을 해결해야 한다”라고 설명했다.
다음은 데이터 준비가 오늘날 애널리틱스 있어 중대한 도전과제인 이유, 이런 문제를 해결할 수 있게끔 발전한 각종 데이터 준비 도구들, 데이터 준비 도구를 선택할 때 고려해야 할 사항들을 정리한 내용이다.
데이터 준비라는 도전과제
데이터 준비를 까다로운 도전과제로 만드는 여러 요소와 요인들이 있다.
첫째, 분석에 필요한 데이터 소스와 종류의 수와 복잡성이 기하급수적으로 커지고 있다. 기업 내부와 외부의 분산된 데이터 생태계 곳곳에 위치한 데이터 소스에 액세스하려면 많은 시간, 리소스를 투자해야 하고, 이를 위한 스킬과 도구들이 필요하다.
IDC의 데이터 통합 및 무결성 소프트웨어 서비스 부문 리서치 디렉터인 스튜어트 본드는 “현재 데이터 환경이 아주 복잡하다. 예를 들어, 데이터 종류와 유형이 아주 다양하다. 트랜젝션 데이터, 마스터 데이터, 소셜 미디어 데이터, 구조화 데이터, 비구조화 데이터, 로그 파일 데이터, 그래프 데이터 등이 있다. 데이터 종류가 정말 다양하고, 이런 데이터가 저장된 기술도 무척 다양하다”라고 설명했다.
둘째, 셀프서비스 데이터 액세스와 통합을 요구하는 수가 증가하고 있고, IT 부문은 이에 대응하기 버거워하고 있다. 이제 더 이상 데이터 통합에 중앙화된 IT모델을 적용할 수 없다는 신호이다.
자이디는 “IT는 비즈니스 사용자가 쉽게 이해하고 사용할 수 있는 도구를 통해 데이터 액세스와 통합을 프로비저닝해야 한다. 데이터 준비에 대한 요구가 훨씬 더 높아지는 지점이다”라고 말했다.
셋째, 데이터 요건이 계속 변하고 있다. 비즈니스 애널리스트, 시민 통합가, LoB 사용자, 데이터 엔지니어, 데이터 사이언티스트 모두 자신의 프로젝트에 대한 데이터 요구사항이 다르다.
자이디는 “이로 인해 데이터를 한 차례 준비해 요구사항이 계속 바뀌는 여러 다양한 소비자가 이용할 수 있도록 제공하는 것이 사실상 불가능해진다”라고 말했다.
차세대 데이터 준비 도구들
자이디는 데이터 준비 도구들이 성숙해짐에 따라 도전과제 또한 바뀌는 양상이라고 덧붙였다. 그에 따르면 과거에는 연결할 데이터 소스 판단, 준비할 데이터 판단이 문제였다. 그러나 지금은 기업들이 데이터 거버넌스, 리니지(Lineage), 추적 용이성, 품질에 초점을 맞추고 있다. 또 필요한 스킬을 갖춘 사람들이 데이터 준비 도구를 사용해 필요한 데이터를 이용할 수 있도록 지원하는 것도 중요해졌다.
본드는 이를 ‘데이터 인텔리전스’에 대한 문제라고 정의한다. 데이터에 대한 메타데이터를 의미한다. 그는 “데이터의 위치, 데이터의 의미, 데이터를 사용하는 사람, 데이터에 액세스하는 사람, 데이터를 확보해야 하는 이유, 데이터를 보관해야 하는 기간, 데이터를 사용하는 방법을 파악하도록 도움을 주는 것이 데이터 인텔리전스이다”라고 설명했다.
다행히 데이터 준비 도구 시장이 발전하면서 문제 해결을 위한 새로운 기능들을 제공하고 있다. 이전 세대 도구들은 비즈니스 사용자들에게 필요한 최종 데이터 준비 작업을 위한 단순한 데이터 변환에 대한 요건만 지원했었다.
반면 현재 차세대 도구들은 발견한 내용을 공유하는 기능이 포함되어 있고, IT팀의 운영화를 위해 준비된 모델을 제공한다. 또 사용자가 연결된 데이터 자산을 확인 및 검색할 수 있는 데이터 카탈로그화(분류) 같은 데이터 관리 기능을 지원한다.
자이디는 “이전 세대 도구들에 없었던 첨단 고급 데이터 품질 관리 기능이 내장된 도구들도 있다. 프로파일링, 태깅, 주석(주해) 기록, 중복 제거, 퍼지 논리 매칭, 연결, 병합 기능을 예로 들 수 있다. IT와 데이터 관리 팀이 훨씬 쉽게 품질을 개선하고, 거버넌스와 컴플라이언스를 확보하고, 이를 통해 준비된 데이터 모델을 널리 도입시켜 사용할 수 있도록 도와주는 기능들이다”라고 설명했다.
여기에 중요한 역할을 하는 기술이 머신러닝(ML)이다. ML 기반 기능들은 데이터 준비에 앞서 자동으로 매칭과 조이닝, 프로파일링, 태깅, 주석을 처리한다. 또 주의가 필요한 민감한 속성, 이례, 극단치를 알려주고, 메타데이터 관리 및 거버넌스 도구를 연결해 민감한 데이터의 노출을 막는다.
자이디는 “머신러닝으로 강력해진 데이터 준비 도구들이 등장했다. 여러 수준의 사용자들이 데이터 준비 도구를 도입해 활용할 수 있도록 도와주고, 동시에 거버넌스와 컴플라이언스를 지원한다”라고 설명했다.
데이터 준비 도구를 선택할 때 고려해야 할 사항들
자이디는 현대적인 데이터 준비 도구들을 평가할 때, 다음 핵심 기능을 고려해야 한다고 말했다.
– 데이터 인제스트(Ingest) 및 프로파일링. 사용자가 인터랙티브한 방식으로 데이터 자산을 인제스트(흡수 또는 수집), 검색하고, 표본화하고, 준비할 수 있는 비주얼 환경이 있는지 검토해야 한다.
– 데이터 카탈로그화(분류) 및 기본 메타데이터 관리. 메타데이터를 생성하고 검색할 수 있는 도구를 선택해야 한다.
– 데이터 모델화 및 변환. 데이터 매쉬업과 블렌딩, 데이터 클린징, 필터링, 사용자 정의 연산, 그룹, 계층(구조)을 지원하는 도구를 선택해야 한다.
– 데이터 보안. 데이터 마스킹, 플랫폼 인증, 사용자와 그룹, 역할 기반 보안 필터링 등 보안 기능이 포함되어 있어야 한다.
– 기본 데이터 품질 및 거버넌스 지원. 데이터 준비 도구는 데이터 거버넌스와 관리, 데이터 품질 및 사용자 권한, 데이터 리니지를 지원하는 다른 도구들과 통합하는 기능을 제공해야 한다.
– 데이터 인리치먼트(강화). 엔티티(실체) 추출과 통합한 데이터에서 속성을 캡처하는 기능 등 기본적인 데이터 인리치먼트 기능들을 지원해야 한다.
– 사용자 협업과 운영화(조작화). 쿼리와 데이터세트 공유에 도움을 주는 기능이 있어야 한다. 여기에는 데이터세트 사용자 평가, 공식 워터마킹 등 거버넌스 기능, 공개 및 공유, 프로모션 모델이 포함된다.
자이디는 여기에 더해, 다음의 차별화된 기능을 고려해야 한다고 덧붙였다.
– 데이터 소스 액세스/연결. API와 표준 기반 연결성을 제공해야 한다. 인기 데이터베이스 PaaS와 클라우드 데이터 웨어하우스, 온프레미스 데이터 소스, 관계형 및 비구조화 데이터, 비관계형 데이터베이스 등 데이터 소스와 클라우드 애플리케이션에 대한 네이티브 액세스 기능이 여기에 포함된다.
– 머신러닝. 머신러닝 AI를 사용, 데이터 준비 프로세스를 강화하거나 자동화시키는 기능을 고려한다.
– 하이브리드 및 멀티 클라우드 배포 옵션. 데이터 준비 도구는 클라우드, 온프레미스, 하이브리드 통합 플랫폼 환경에 대한 배포를 지원해야 한다.
– 도메인, 또는 산업 특정적 서비스나 템플릿. 이런 도구는 데이터 준비 시간을 줄일 수 있는 도메인, 수직(분야) 특정적 데이터 모델에 대한 패키지 템플릿이나 서비스를 제공해야 한다.
자이디에 따르면, 첫 번째로 스탠드얼론 데이터 준비 도구를 선택할지, 아니면 데이터 준비 도구를 더 광범위한 분석/BI, 데이터 사이언스, 데이터 통합 도구로 제공하는 벤더를 선택할지 고려해야 한다.
광범위한 분석/BI, 데이터 사이언스 도구의 데이터 통합에 의존하는 범용 유즈 케이스를 갖고 있다면 스탠드얼론 도구를 고려한다. 반면, 특정 플랫폼이나 생태계에 대한 데이터 준비가 필요하다면, 벤더 도구에 내장된 데이터 준비 기능을 선택하는 것이 더 합리적일 수 있다.
데이터 준비 도구 시장 현황
가트너는 데이터 준비 도구를 공급하는 벤더를 4개 범주로 구분하고 있다. 각 범주마다 벤더들이 많다. 데이터 준비 기능이 여러 다양한 데이터 관리 및 분석 도구에 탑재되고 있기 때문이다.
– 스탠드얼론 데이터 준비 도구들. 이 범주의 벤더들은 멀티 분석/BI, 데이터 사이언스, 데이터 통합 도구에 대한 지원, API 액세스 등 다운스트림 프로세스 통합을 강화하는데 초점을 맞춘다. 알테어(Altair), 데이터미어(Datameer), 로어 IO(Lore IO), 모닥 애널리틱스(Modak Analytics), 팍사타(Paxata) 같은 벤더가 이 범주의 도구를 공급하고 있다.
– 데이터 통합 도구. 이 범주의 벤더들은 전통적으로 데이터 통합 및 관리에 초점을 맞추고 있다. 캠브릿지 시맨틱스(Cambridge Semantics), 디노도(Denodo), 인포직스(Infogix), 인포매티카(Informatica), SAP, SAS, 탈렌드(Talend), TMM데이터(TMMData) 같은 벤더가 이 범주의 도구를 공급하고 있다.
– 현대적인 분석 및 BI 플랫폼들. 이들 벤더는 ‘엔드 투 엔드’ 분석 워크플로우의 일부로 데이터 준비 도구를 제공한다. 데이터 준비가 현대적인 분석 및 BI에 아주 중요하기 때문에, 이 분야의 모든 벤더가 데이터 준비 기능을 탑재시키고 있다. 알테릭스(Alteryx), 태블로(Tableau), 캠브릿지 시맨틱스(Cambridge Semantics), 인포직스(Infogix), 마이크로소프트(Microsoft), 마이크로스트래티지(MicroStrategy), 오라클(Oracle), 클릭(Qlik), SAP, SAS, 팁코 소프트웨어(TIBCO Software), TMM데이터(TMMData)가 이런 벤더들이다.
– 데이터 사이언스 및 머신러닝 플랫폼. 가트너에 따르면, 이들 벤더는 ‘엔드 투 엔드’ 데이터 사이언스와 ML 프로세스의 일부로 데이터 준비 기능을 제공한다. 알테릭스(Alteryx), 캠브릿지 시맨틱스(Cambridge Semantics), 데이터이쿠(Dataiku), IBM, 인포직스(Infogix), 래피드 인사이트(Rapid Insight), SAP, SAS가 대표적인 벤더들이다.
위에 설명한 4개 범주 외에, 데이터 준비 기능을 제공하는 새로운 범주가 있다. 다음 플랫폼과 벤더가 여기에 해당된다.
– 데이터 관리/데이터 레이크 구현 플랫폼 : 인포매티카(Informatica), 탈렌드(Talend), 유니피(Unifi), 잘로니(Zaloni)
– 데이터 엔지니어링 플랫폼 : 인포웍스(Infoworks)
– 데이터 품질 도구 : 엑스페리안(Experian)
– 데이터 통합 전문 : 알루마(Alooma), 넥슬라(Nexla), 스트림세트(StreamSets), 스트림(Striim)
6종의 핵심 데이터 준비 도구들
다음은 현재 가용한 것들을 더 상세하게 제공하는 6종의 데이터 준비 도구들이다.
알터릭스 디자이너(Alteryx Designer)
이 스탠드얼론 데이터 준비 도구는 알터릭스 애널리틱스(Alteryx Analytics) 및 데이터 사이언스(Data Science) 플랫폼의 일부이기도 하다. 더 광범위한 현대적인 분석 및 BI 플랫폼, 더 광범위한 데이터 사이언스 및 머신러닝 플랫폼의 기능으로 데이터 준비 기능이 제공된다는 이야기이다.
SQL 코드 없이 데이터를 혼합하고, 준비하고, 프로파일링할 수 있는 ‘드랙 앤 드롭’ 워크플로우를 지원한다. 라이선스 방식은 사용자 수에 기준을 둔 연간 구독 방식이다.
캠브릿지 시맨틱스 안조(Cambridge Semantics Anzo)
안조는 캠브릿지 시맨틱스의 엔드 투 엔드 데이터 발견(검색) 및 통합 플랫폼이다. 이는 가트너의 4개 범주 모두에 해당되는 플랫폼이다. 안조는 기존 데이터 인프라에 그래프 기반의 시멘틱 데이터 패브릭 계층을 적용, 엔터프라이즈 데이터를 매핑하고, 데이터세트간 연결성을 드러내고, 시각적인 탐색 및 발견(검색)을 지원하고, 여러 데이터세트를 혼합한다. 라이선스 방식은 구독 방식이다. 코어와 사용자 수를 토대로 가격이 책정된다.
데이터미어 엔터프라이즈(Datameer Enterprise)
데이터미어 엔터프라이즈는 가트너의 범주 중 스탠드얼론에 해당되는 데이터 준비 및 데이터 엔지니어링 플랫폼이다. 마법사 기반 통합 프로세스를 사용, 이질적인 로우(원본) 데이터 소스를 통합해 단일 데이터 스토어를 만드는데 초점이 맞춰져 있다.
데이터미어는 쉽게 데이터를 섞어 시각적으로 탐색할 수 있도록 스프레드시트 형태의 인터페이스를 제공한다. 컴퓨터 성능이나 데이터 볼륨(양)을 토대로 가격이 책정된다. 클라우드 고객의 경우 시간당 과금제나 연간 라이선스 방식으로 도구를 이용할 수 있다.
인포직스 데이터3식스티 애널라이즈(Infogix Data3Sixty Analyze)
데이터3식스티 애널라이즈는 인포직스가 라바스톰(Lavastorm)을 인수해 만든 웹 기반 솔루션이다. 데이터미어처럼 가트너의 4개 범주 모두에 해당되는 도구이다. 데이터3식스티 는 사용자 정의에 역할 개념을 사용한다. 설계자는 데이터 흐림을 만들고, 수정할 수 있다. 그리고 탐색자는 데이터 흐름에 대한 실행만 가능하다. 또 스케줄러는 자동 프로세싱에 대해 예약을 하고, 이를 수정할 수 있다. 인포직스는 데이터3식스티를 구독 기반 데스크톱 제품, 영구 라이선스나 구독 라이선스에 바탕을 둔 서버 제품으로 제공한다.
탈렌드 데이터 프레퍼레이션(Talend Data Preparation)
탈렌드는 3종류의 데이터 준비 도구를 공급하고 있다 탈렌드 데이터 프레퍼레이션 (오픈소스 데스크톱 버전), 탈렌드 데이터 프레퍼레이션 클라우드(Talend Cloud Platform의 일부로 제공되는 커머셜 버전), 또 다른 형태의 탈렌드 데이터 프레퍼레이션(온프레미스 Talend Data Fabric 상품의 일부로 제공되는 커머셜 버전)이 여기에 해당된다.
탈렌드 데이터 프레퍼레이션은 스탠드얼론 도구이다. 반면 탈렌드 클라우드와 탈렌드 패브릭은 조더 광범위한 데이터 통합/데이터 관리 도구의 일부로 데이터 준비 기능을 제공한다.
탈렌드는 표준화와 클린징, 패턴 인식, 조정에 머신 학습 알고리즘을 사용한다. 오픈소스 버전은 무료이다. 커머셜 버전은 기명 사용자 라이선스에 기반을 둔 구독 모델이 적용된다.
트리팩타 랭글러(Trifacta Wrangler)
트리팩타 랭글러는 클라우드와 온프레미스 컴퓨팅 환경을 지원하는 다양한 에디션이 있는 스탠드얼론 데이터 준비 플랫폼이다. 연결할 데이터를 추천하고, 데이터 구조와 스키마를 추론하고, 조인을 추천하고, 사용자 엑세스를 규정하고, 조사 및 데이터 품질에 대한 비주얼리제이션을 자동화하는 ML 기능이 탑재되어 있다. 트리팩타 랭글러 는 무료 버전으로 제공된다. 또 랭글러 프로(컴퓨터 성능과 사용자 수에 따라 과금)와 랭글러 엔터프라이즈(컴퓨팅/프로세싱 성능과 사용자의 수로 과금되는 온프레미스 및 클라우드 버전), 구글 클라우드 데이터프랩 바이 트리팩타(Google Cloud Dataprep by Trifacta ; 컴퓨팅 사용량으로 과금) 버전이 있다. dl-ciokorea@foundryco.com