예측 애널리틱스(Predictive analytics)는 강력한 도구다. 그러나 이 강력한 도구조차도 사용자가 해당 기술을 배치하거나 활용하는 과정에서 직면할 수 있는 문제를 ‘예측’하지는 못한다.
“내가 관찰한 가장 큰 문제는 애당초 문제가 있다는 것을 깨닫지 못하는 것이다.”
통계 기법과 예측 애널리틱스(Predictive Analytics)를 비즈니스 프로세스에 적용하는 데 있어 선구자 역할을 한 W. 에드워드 데밍는은 예측 애널리틱스와 관련해 위와 같은 조언을 강조하곤 한다.
그에 따르면 예측 애널리틱스에서 큰 문제들이 계획과 초기 배포 단계에서는 잘 드러나지 않는다. 기술이 예상한 성과를 전달하지 못하면서 문제가 점차 대두되곤 한다. 애석하게도 이러한 문제 상당수는 미리 예방할 수 있었던 것들이다.
엣지 장치 분석 소프트웨어 개발사인 SWIM.AI의 사이먼 크로스비 CTO에 따르면, 예측 애널리틱스 프로젝트에서는 특히 미흡한 계획과 비현실적인 기대 때문에 발생하는 문제와 도전과제가 많다.
“예측 애널리틱스는 저절로, 자동으로 복잡한 시스템에 사용하고, 이를 개선시키는 ‘마법 지팡이’가 아니다. 추구하는 인사이트의 종류를 정확히 인식하고, 재빨리 가설을 세우고 동적으로 데이터 스트림에 분석을 적용, 상관관계나 이례(이상이나 변칙)를 찾고 미래의 성과를 예측할 수 있는 도구들을 선택해야 한다”라고 그는 설명했다.
예측 애널리틱스 도입 시 자주 발생하는 도전과제를 피하거나 해결할 수 있도록 도움을 주는 7가지 조언을 정리했다.
1. 공식 전략을 수립해 이행한다
‘즉시 해치우는’(Winging it) 방식은 복잡한 엔터프라이즈 기술인 예측 애널리틱스에 효과적으로 접근하는 방법이 아니다. 위험 관리 컨설팅 회사인 CBIZ 리스크 앤 어드바이저리 서비스(CBIZ Risk and Advisory Services)의 스콧 무디 시니어 매니저는 “예측 애널리틱스 전략 수립의 첫 번째 단계는 성취할 목표와 목적을 결정하는 것”이라고 말했다.
‘매출을 증진시킬 수 있도록 예측 애널리틱스를 배포할까?’, 부정 행위나 위험 영역을 감지할 수 있도록 예측 애널리틱스를 배포할까?’ 등을 예로 들 수 있다.
그는 “목표와 목적을 기반으로 전략을 발전시켜야 훨씬 더 효과적으로 목표와 목적 달성에 필요한 부분에 노력을 집중할 수 있다”라고 말했다.
컬미네이트 스트래티지 그룹(Culminate Strategy Group)의 캐리 설리반 대표는 최초 ‘재고 조사’를 실시하라고 권장했다. 여러 사업 단위의 관련 데이터 소스를 모두 조사해 예측 애널리틱스에 대한 준비 상태를 판단하라는 의미이다. 그녀는 “인접 시스템과 프로세스 전반에 걸쳐 볼륨과 히스토리, 형식, 중복 등을 기록해야 한다”라고 설명했다.
또 핵심 비즈니스 영역에 예측 애널리틱스를 전개하기 전, 몇 차례 비공식적 테스트를 실시하는 것이 좋다는 조언이다. 실제 비즈니스 상황에서 기술이 어떤 방식으로 활용되는지 파악하기 위해서다. 마케팅이나 고객 서비스 같이 데이터가 풍부한 영역을 대상으로 테스트를 실시한다. 설리반은 “예측 애널리틱스가 할 수 있는 일에 대해 모두 동일한 기대를 갖도록 만드는 데 목적이 있다”라고 설명했다.
2. 데이터 품질을 확보한다
예측 애널리틱스에서 인사이트를 얻기 위해서는 신뢰할 수 있는 데이터가 필요하다. 부정확한 데이터는 거의 대부분의 경우에 잘못된, 또는 잘못 인도하는 결과를 가져온다. 무디는 “가장 먼저 할 일은 데이터가 시스템에 입력이 될 때 자동으로 입력을 통제 및 관리하는 것”이라고 강조했다.
조직이 데이터 품질을 통제 및 관리할 수 없는 경우가 있다. 외부 공급자로부터 데이터를 입수하는 경우를 예로 들 수 있다. 이 경우, 분석 프로세스의 첫 단계로 데이터 품질을 확인 및 검토해야 한다. 무디는 “데이터 품질 문제를 확인해 수정하지 않고 분석을 하게 될 경우 추후 품질 문제를 발견했을 때 다시 분석을 해야 되는 문제가 있다”라고 경고했다.
크로스비는 그러나 지금은 몇 년 전처럼 데이터 품질에 아주 까다로울 필요는 없다고 덧붙였다. 그는 “다행히 기술이 발전하면서 과거처럼 데이터를 ‘정리(클린)’하거나 완벽히 파악할 필요가 없어졌다. 학습 기술을 활용, 자동으로 ‘그레이 데이터’의 스키마를 추론할 수 있다”라고 말했다.
그에 따르면, 정말 중요한 것은 가능한 많은 로우(미가공) 데이터에 액세스 하는 것이다. 그는 “즉 시스템을 구현해 수 많은 데이터를 수집해야 한다”라고 강조했다.
3. 데이터 볼륨(양)을 관리한다
일반적으로 많은 데이터 풀에 접근하는 것이 좋다. 그러나 예측 애널리틱스 시스템에 지나치게 많은 데이터를 공급할 경우 필수 프로세스가 느려진다. 또 불필요하게 비밀 데이터가 유출 또는 노출될 위험이 높아진다.
무디는 “지나치게 많은 데이터에 엑세스 하게 될 경우 분석에 사용할 적합한 데이터 파악에 어려움을 겪을 수 있다. 적절한 수준에서 데이터 볼륨을 유지해야 예측 애널리틱스에 적합한 데이터를 사용할 수 있다”라고 말했다.
유용하게 활용될 수 있는 데이터세트, 확실히 무시할 수 있는 데이터세트를 정확히 이해해야 효율적이면서 효과적으로 볼륨을 관리할 수 있다. 이런 결정을 내릴 수 있는 역량을 갖고 있는 사람은 숙련된 데이터 사이언티스트이다. 무디는 “데이터 사이언티스트는 때때로 대부분의 사람들이 ‘노이즈’로 판단해 버리는 데이터에서 ‘가치’를 발견하곤 한다”라고 강조했다.
4. 데이터 프라이버시/소유권을 존중한다
정부의 감시 감독이 불과 몇달 전과 비교해도 훨씬 엄격해졌다. 이에 기업들은 데이터 프라이버시(개인 정보 보호) 및 오너십(소유권)과 관련, 과거보다 훨씬 큰 도전에 직면한 실정이다. 예측 애널리틱스 도입자들 또한 예외가 아니다. 분석에 필요한 데이터만 사용하고, 이런 파일에만 액세스를 하도록 제한해야 한다.
무디는 “데이터 프라이버시를 존중하는 또 다른 방법은 개인을 식별하는 필드를 가리는 방법이다. 데이터에서 신원 식별 부분을 없애 데이터 프라이버시에 대한 우려를 낮춰주는 도구들이 많다”라고 전했다.
프라이버시와 관련된 규정을 위반하지 않는 가장 간단한 방법은 필요한 최소한의 기간만 데이터를 유지하는 것이다. 크로스비는 “수명이 짧은 데이터에서 가치가 높은 인사이트를 도출한 후 재빨리 이를 폐기하면 로우 데이터 프라이버시 문제를 방지할 수 있다”라고 설명했다.
5. 유용성을 극대화한다
처음부터 이해하기 쉬운 결과를 생성하는 종합적이고 복합적인 모델을 구현했을 때 예측 애널리틱스 기술의 효과가 가장 높다. 그러나 이렇게 하지 못하는 경우가 많다. 데이터 사이언티스트만 정확히 해석할 수 있는 복잡하고 불가해한 결과와 씨름하게 되는 경우가 많다. 동시에 이해 당사자들에게 제공하는 가치가 거의 없는 미흡하고 지나치게 단순한 해석을 제공하는 경우도 많다.
유용성을 극대화하기 위해서는 최종 사용자를 염두에 두고 사용자 인터페이스를 구현해 배포해야 한다. 헬스케어 분야를 대상으로 예측 애널리틱스 및 머신 학습 기술을 제공하는 회사인 린타스(LeanTaaS)를 창업한 모한 지리드하라다스 CEO는 “기반이 되는 모델이 아주 정교해도, 사용자 인터페이스는 단순하게 구현할 수 있다”라고 말했다.
이와 관련, 구글의 웹 검색이나 애플의 아이패드를 참고할 만하다. 지리드하라다스는 “이런 제품의 사용자 환경(경험)은 누구나 사용할 수 있을 정도로 사용자 친화적이다. 그러나 안에는 복잡한 소프트웨어 및 하드웨어가 구현되어 있다”라고 설명했다.
어도비 애널리틱스 클라우드(Adobe Analytics Clod)의 그룹 제품 매니저인 벤 게인스는 예측 애널리틱스의 경우 ‘반복(Iterative)’이 중요하다고 강조했다. 모델을 런칭한 즉시 이런 사실이 명백해진다. 게인스는 “그 즉시 모델이 얼마나 잘 작동을 했는지 여부, 더 정확하고 실용성 높은 인사이트를 얻기 위해 이를 재조정할 수 있는지 보게 된다”라고 말했다.
예를 들어, 예측 애널리틱스는 기업이 트렌드(추세)를 예상할 수 있도록 도와준다. 장치의 트래픽을 예상하고, 사용자가 페이지당 임프레션(광고 노출 횟수)를 예상하고, 예상 매출을 기준으로 예산과 목표를 수립할 수 있다.
그는 “진짜 임프레션, 이를 통해 예산과 목표를 조정하는 방법을 파악하면 이를 출발점으로 세밀하게 모델을 조정 및 최적화할 수 있다. 처음부터 완벽하게 예측 애널리틱스 프로그램을 운영할 수 없다는 점을 인식해야 한다. 오류나 실수가 불가피하다. 그러나 이는 데이터 및 모델에 대한 이해를 높이도록 도움을 준다”라고 말했다.
6. 비용을 관리한다
온라인 대출 회사인 말레트 펀딩(Marlette Funding)의 아놀드 프라비나타 CDSO(Chief Decision Science Officer)에 따르면, 대부분의 데이터 분석 예산에서 가장 큰 비중을 차지하는 항목 두 가지는 데이터 획득 비용 및 급여이다.
이 중 데이터 비용에 유의해야 한다. 데이터 비용을 관리하기 위해 유용성이 없거나 미흡한 데이터에 돈을 낭비하고 있는지 정기적으로 확인해야 한다. 그는 “인건비는 통상 ‘시장 법칙’을 따라야 한다”라고 덧붙였다.
보관한 데이터의 양이 증가하면서 스토리지(저장소) 관련 비용이 급증할 수 있다. 설리반은 데이터를 중앙화하고, 체계적인 거버넌스 전략을 적용하는 방법이 비용 관리에 효과적이라고 주장했다. 그는 “몇 년 뒤면 예측 애널리틱스 유지관리를 자동화하는 방법을 이야기하게 될 것이다. 그러나 지금 당장은 통제 및 관리에 의지해야 한다”라고 설명했다.
7. 도구 선택에 유의한다
예측 애널리틱스 시장이 급속도로 확대되고 있다. 새로운 도입자들이 수 많은 플랫폼과 도구를 놓고 고민해야 한다는 의미다. 이와 관련, 내부에서 현명하게 선택을 할 수 있는 인재를 보유한 기업은 극소수이다. 이런 ‘스킬’ 양성에는 돈과 시간이 필요하다. 대부분은 예측 애널리틱스에 대한 계획을 발전시킬 때 외부에서 도움을 구할 수밖에 없다.
이 경우, 추천 상품과 서비스를 자세히 검토하고, 조직의 장기 계획에 부합할지 여부를 고려하는 것이 중요하다. 크로스비는 “특정 분석 알고리즘이나 학습 스택에 ‘묶이지(록인)’ 않는 솔루션을 찾아야 한다. 모두 오픈 소스에 기반을 두고 있기 때문에 스트리밍 분석 플랫폼을 가변적으로 더 새롭고 발전된 알고리즘으로 업그레이드할 수 있어야 한다”라고 강조했다.dl-ciokorea@foundryco.com