기업이 과거보다 훨씬 빠르게 데이터를 다루고자 하면서 데이터 과학자들이 알고리즘을 구축하고 배포하도록 해주는 플랫폼이 점점 더 중요해지고 있다.
가트너는 데이터 과학 플랫폼을 단순히 “머신러닝 솔루션을 만드는 엔진”으로 정의한다. 이 기사에서는 가트너의 정의를 확대해 데이터 과학 업무팀이 코드를 공동 작업하고 직접 배포해 데이터 과학 솔루션을 안내할 수 있는 모든 것을 포함했다.
데이터 과학 플랫폼은 상대적으로 덜 성숙했고 아직은 묘책이 없음을 기억하는 것이 중요하다. 테셀라 애널리틱스(Tessella Analytics)의 수석 분석 전략가인 매튜 존스는 <컴퓨터월드UK(ComputerworldUK)>와의 인터뷰에서 “데이터 과학은 플러그 앤드 플레이가 아니다”고 말했다. 이어서 “플랫폼은 아웃소싱해도 괜찮다. 하지만, 존재하는 데이터와 컨텍스트를 이해하는 사람은 교육을 받아야 한다. 기술 공급 업체에게 데이터 과학을 아웃소싱하는 경우 비즈니스와 데이터를 확실히 이해해야 한다”고 밝혔다.
이를 염두에 두고 오픈소스부터 기존 솔루션 업체까지 현재 기업이 가장 많이 사용하는 데이터 과학 플랫폼을 소개한다.
1. H2O.ai
H2O.ai는 기업이 비즈니스 문제에 신속하고 확장할 수 있는 예측 분석을 적용하도록 지원하는 오픈소스 시스템 학습 플랫폼이다.
이 플랫폼의 명성은 점점 더 올라가고 있으며, 이전 버전은 가트너 매직 쿼드런트에서 비저너리로 선정됐으며 2018 데이터 과학 및 머신러닝 플랫폼 매직 쿼드런트에서 리더로 꼽혔다.
가트너는 딥러닝, 머신러닝 자동화, 하이브리드 클라우드 지원, 오픈소스 통합에 대한 기술 역량과 이베이, 캐피탈원, 컴캐스트를 포함한 고객사를 위한 강력한 지원을 높이 평가했다.
코드 중심 툴체인은 뛰어난 유연성과 확장성을 제공하지만 가장 사용자 친화적인 제품은 아니다.
2. 마이크로소프트 애저 머신러닝
마이크로소프트는 데이터 과학자에게 애저 머신러닝(Azure Machine Learning) 플랫폼을 사용해 예측 분석을 실제 환경에 구축하고 배포하기 위한 클라우드 서비스를 제공한다. 이 플랫폼에는 파이썬이나 R 등 원하는 언어로 사용자 정의 코드를 지원하는 패키지가 포함되어 있으며 데이터 과학자가 시작할 때 쓸만한 많은 설명서가 제공된다.
애저 플랫폼은 데이터 과학자가 모델을 프로덕션에 웹 서비스로 신속하게 설치한 다음 애저 마켓플레이스에서 모델을 공유하도록 해준다. 고객으로는 카니발 크루즈(Carnival Cruises), JLL, 후지쯔가 있다.
3. 도미노 데이터랩
캘리포니아에 있는 신생벤처인 도미노 데이터랩(Domino Data Lab)의 플랫폼은 데이터 과학팀이 선호하는 데이터 소스를 모델링하고, 사용하기 쉬운 툴과 프로그래밍 언어를 사용하며, 도미노에서 직접 모델로 공동 작업해 API로 배포할 수 있는 ‘워크 벤치’ 솔루션이다.
도미노 데이터랩은 모든 데이터 과학 활동의 허브 역할을 하며 클라우드 컴퓨팅을 탄력적으로 제공하고 일관성 있으며 안전한 방식으로 배포한다. 보험회사인 취리히(Zurich)와 올스테이트(Allstate)의 데이터 과학팀이 도미노의 고객이다.
4. 클라우데라 데이터 과학 워크 벤치
분석 업체인 클라우데라는 센스.io(Sense.io)를 인수한 후 1년 만인 2017년 3월에 ‘데이터 사이언스 워크벤치(Data Science Workbench)’를 출시했다. 워크벤치는 데이터 과학팀이 R, 파이썬, 스파크와 같은 널리 사용되는 프로그래밍 언어로 데이터를 안전하게 보호하고 협업 환경에서 작업할 수 있는 플랫폼을 목표로 한다.
이 아이디어는 실제 데이터 과학 이외의 다른 것에 대해 걱정해야 하는 것보다 훨씬 빠른 속도로 기업 내에서 머신러닝 및 고급 분석을 모델링하고 배포하는 것이다.
5. SAS 바이야
분석 및 BI 업체 SAS는 자사의 바이야(Viya) 플랫폼을 통해 데이터 과학과 머신러닝 기능을 제공한다.
이는 분석 업체가 고객에게 자체 분석 클러스터를 통해 안전하고 일관된 방식으로 배포할 수 있는 고급 분석 작업을 수행할 수 있는 플랫폼을 제공하는 예다.
SAS UK/아일랜드의 기술 책임자인 피터 퓨-존스는 <컴퓨터월드영국>와의 인터뷰에서 “우리는 사람들이 사용하고 싶은 것을 사용할 수 있게 하려고 노력하지만 매번 새로운 것을 다시 만들어 내지는 않는다”고 말했다.6. 다다이쿠
프랑스 신생벤처인 다다이쿠(Dataiku)는 플랫폼 DSS에서 유도된 데이터 과학 및 머신러닝 프로세스를 호스트한다. 플랫폼에는 파이썬, 피그(Pig), R, 하이브 등의 코드를 사용하거나 코드를 드래그앤드 드롭하여 데이터를 모델링할 수 있다.
이 플랫폼을 사용하면 데이터 과학자, 데이터 애널리스트와 엔지니어 팀이 한 곳에서 비즈니스에 데이터 솔루션을 프로토타입하고 구축하고 제공할 수 있다. 이전 고객으로는 로레알, 트레인라인(Trainline), AXA보험이 있다.
최근 출시된 다다이쿠에는 데이터 준비를 위한 포인트 앤드 클릭 기능(시각화), 교육 중 모델 성능 모니터링 기능, 새로운 코드 편집기로 파이썬 3을 지원하는 기능이 추가됐다.
7. IBM 데이터 사이언스 익스페리언스
다양한 데이터 과학 툴을 제공하는 IBM은 자사 왓슨 기반 머신러닝 플랫폼을 출시할 준비를 하고 있다.
현재 임베디드된 학습과 함께 제공되므로 데이터 과학자는 파이썬용 주피터 노트북(Jupiter Notebooks for Python)과 R용 R스튜디오(RStudio for R)같은 대중적인 프로그래밍 언어로 작업하기 위해 플랫폼, 공동 작업 기능, 노트북 툴에 대한 참여를 향상할 수 있다. 플랫폼은 매달 인스턴스당 9,200달러며 스파크 클러스터 및 유연한 스토리지를 제공한다.
8. 래피드마이너
오픈소스 데이터 과학 플랫폼 래피드마이너(RapidMiner)는 BMW, 삼성, 도미노, 바클레이가 좋아하는 데이터 과학 프로젝트를 지원한다.
래피드마이너 플랫폼 툴에는 시각적 데이터 과학 워크플로우용 스튜디오, 작동 모델용 서버, 하둡 데이터를 사용하는 워크플로우에 대한 라둡(Radoop)이 포함된다.
대기업이나 대규모 프로젝트의 경우 데이터 행에 따라 연간 2,500달러에서 1만 달러에 이르는 엔터프라이즈 버전의 플랫폼이 있다.
9. 나임
오픈소스이자 무료인 나임 애널리틱스 플랫폼(Knime Analytics Platform)은 데이터 과학자들에게 다양한 데이터 소스와 확장 가능한 환경에서 편리한 툴로 프로젝트에서 작업할 수 있는 빈 캔버스를 제공한다.
개방형 플랫폼에는 수천 개의 기본 노드 및 모듈, 광범위한 설명서 및 사전 패키지 된 고급 알고리즘이 포함돼 있어 신속하게 시작할 수 있다. 데이터 과학자는 단일 인프라나 기존 인프라와 함께 단일 컴퓨터, 스트리밍이나 대용량 데이터 사이를 신속하게 전환할 수 있으며 모든 것이 역 호환되고 유연성을 위해 쉽게 이식 가능하도록 보장한다.
10. 스플렁크 머신 학습 툴킷
대용량 데이터 전문 업체인 스플렁크는 지난 1년 동안 플랫폼 내에서 좀더 통합된 머신러닝으로 옮겨갔지만 이 업체는 맞춤형 모델을 위한 머신러닝 툴킷도 제공한다.
다른 워크벤치 솔루션보다 스플렁크를 사용하면 시스템 생성 데이터(스플렁크의 전문 분야)를 직접 모델링할 수 있으므로 보안 및 IoT 사용 사례가 적합하다.
툴킷은 데이터 과학자가 가장 널리 쓰이는 프로그래밍 언어로 알고리즘을 모델링하고 배포할 수 있는 워크벤치다. 또한 널리 쓰이는 사례를 위해 사전 제작된 파이썬 알고리즘 라이브러리와 곧 시작할 수 있는 많은 설명서와 튜토리얼이 있다.
*이 기사는 ‘머신러닝, 예측 알고리즘 모델링에 탁월한 ‘데이터 과학 플랫폼 9선‘을 업데이트해 작성됐다.dl-ciokorea@foundryco.com