한 잔의 와인이 체육관에서 한 시간 동안 운동하는 것만큼 건강에 좋다는 이야기가 있다. 임신한 여성에게 초콜릿 다이어트 유익하다는 연구 결과도 화제를 모았다. 자살, 교살, 질식이 미국의 과학, 우주, 기술에 대한 지출과 상관 관계가 높다는 결과가 나오기도 했다.
비즈니스/데이터 분석 부문에 종사하는 전문가들은 이런 괴상하지만 그리 틀리지 않은 연구들에 공통점이 있다는 사실을 잘 알고 있다. 변수들 사이의 상관 관계(correlations )를 나타내는 데이터와 인과성(causality)을 수립하는 데이터를 구분하지 못한다는 것이다.
이런 혼동으로 인해 임신한 여성이 허쉬(Hershey) 초코바를 한두 개 더 먹는다면 그리 심각한 결과로 이어지지 않을 것이다. 그러나 회사가 이런 혼동에 기반해 판단한다면 성과에 치명적일 수 있다.
데이터 분석을 연구하고 가르치는 교수로서 필자는 이런 문제를 반복적으로 목격하고 있다. 일부 비즈니스 사례를 소개한다.
쿠폰 남발
고객이 더 많은 제품을 구매하도록 유도하기 위해 우편, 이메일, 모바일 기기로 쿠폰을 전송하곤 한다. 보편적인 마케팅 방법이다. 이 기법의 마케팅 효과를 평가하기 위해 기업들은 보편적으로 단순한 통계 모델을 구성한다. 통계 부서에서 쿠폰을 사용한 고객과 그렇지 않은 고객의 구매 차이를 측정하도록 지시하는 식이다.
그러나 (실제 마케팅 전략에 대해 아는 것이 거의 없는 통계 전문가에게 맡긴) 이런 분석은 쿠폰이 충성 고객들에게 전송되는 경우가 많다는 사실을 고려하지 않은 경우가 많다. 즉 쿠폰이 없을 때 이들 충성 고객으로부터 얻었을 매출을 감안하지 않는 한 분석은 실제 ‘쿠폰 효과’를 과장하기 쉽다. 결국 데이터에 기반해 새로운 전략을 수립한 이 기업은 ‘쿠폰을 남발’하고 불필요한 손해를 입을 것이다.
가격 정책 왜곡
가격 정책은 상관 관계/인과 혼동(correlation/causation confusion)이 치명적일 수 있는 또 다른 영역이다. 가격 탄력성(즉, 가격 변동에 대한 고객의 민감도)를 추정하려는 커피 브랜드를 상상해 보자.
이 커피 기업은 여러 커피 브랜드를 판매하는 식료품 매장에서 주간 판매 및 가격 데이터를 수집한다. 데이터에서 다소 놀랍게도 가격이 상승할 때 판매량이 증가하는 것으로 나타난다.
그렇다면 가격을 지속적으로 상승시키는 전략을 펼쳐야 할까? 물론 그렇지 않다. 식료품 매장에서 제품 가격이 개별 브랜드가 아닌 범주 수준(커피 브랜드 전체)에서 관리되는 경우가 많기 때문이다. 따라서 이 경우 경쟁자의 가격이 상승해 대상 브랜드의 제품 가격이 상승했을지라도 비교적 저렴해 보일 수 있다.
즉 대상 브랜드의 가격 외에 시장에서 어떤 일이 이루어지고 있는지에 관한 정보가 없다면 단순한 통계적 모델은 오도하고 혼란스러운 결과로 이어지기 쉽다.
검색 광고 오류
디지털 마케팅 시대에는 기업들이 그 어느 때보다도 키워드 검색 광고에 대한 지출을 늘리고 있다. 어떤 키워드에 가장 공격적인 예산을 편성할지 결정하기 위해 기업들은 일반적으로 CTR(Click-Through Rate), 즉 검색 결과에 광고가 표시되는 횟수 대비 클릭된 수를 측정한다. CTR이 높으면 해당 키워드의 예산이 더 증가한다.
하지만 데이터가 시작점에 불과한 경우 상당한 오해의 소지가 있다.
우선, 기업은 ‘귀여운 아기 옷’이라는 특정 키워드에 약간의 예산을 투입했을 수 있다. 구글 애드워즈가 개발한 입찰 시스템 때문에 소비자가 “귀여운 아기 옷”을 검색하면 해당 키워드에 대한 기준 이상으로 입찰한 기업의 광고만 사용자에게 노출된다.
그러나 기업이 “귀여운 아기 옷”에 돈을 지불하지 않았을지라도 회사에 생성되었을 수 있는 클릭이 있을 수 있다. 그 숫자를 정확히 알 수 없을 뿐이다.
또 대부분의 사람들은 첫 번째 검색 결과 페이지 외의 광고는 클릭하지 않는다. 따라서 누군가 “귀여운 아기 옷”을 검색할 때 표시된다 하더라도 충분히 지불하지 않은 경우라면 광고료를 많이 지불했을 때와 비교해 어떤 클릭 수 차이가 있는지 알기 어렵다.
현명한 접근을 위해서는 데이터 분석을 잠시 미루고 마케팅팀이 선별적인 신중한 실험을 하도록 해야 한다. 이를 통해 최고의 검색 전략을 결정하는데 도움이 되는 더 나은 데이터를 생성할 수 있다.
엉터리 분석을 피하기 위한 팁
이런 문제를 해결하는 가장 효과적인 해결책은 데이터가 생성되는 과정인 DGP(Data Generating Process)를 정확히 이해하는 것이다. 각 데이터 세트는 검색 용어가 선택되고 클릭이 발생했는지 여부 등 발생한 일의 일부를 설명하는 일련의 기록이다.
마케팅에서 대부분의 데이터 세트는 소비자의 행동을 담고 있다. 하지만 위에서 논의한 데이터 세트는 소비자의 의사 결정 과정 전체를 제시하지 않는다. 그 결과 마케팅 결정 상당수는 상관 관계가 실제로는 인과성이었던 것처럼 이루어진다. DGP를 보다 잘 이해하고 이런 보편적인 위험을 피하기 위해 할 수 있는 작업으로는 다음과 같은 것들이 있다.
1. 데이터 그래프 작성
데이터 시각화는 빅데이터 프로젝트에서 아주 중요하다. 데이터를 해석해 데이터에 대해 잘 모르는 사람들에게 제공하는데 도움이 되기 때문이다. 이와 관련해 간단한 데이터 플롯(Plot)을 적용하는 것, 즉 그래프를 그려보는 것은 데이터를 이해하고 샘플에서 이례적인 지점을 찾는데 도움이 된다. 데이터를 플로팅하고 데이터를 제대로 이해한 후에만 분석가는 데이터와 자신이 해결하려는 문제에 가장 적합한 모델링 접근방식을 찾을 수 있다.
2. 데이터 분석 업무에 마케팅 전문가와 통계 전문가를 모두 합류시키기
그래프 작성이 DGP 이해에 도움이 되기는 하지만 DGP에 직접 참여했던 사람들과 대화를 나누는 것은 더욱 도움이 된다. 예를 들어, 마케팅팀이 쿠폰을 보낼 대상을 결정하는 경우 수신인을 선택하기 위해 사용된 정확한 결정 규칙을 설명할 수 있다. 이 정보는 통계 모델을 개발하는 분석가들에게 필수적이다.
3. 각 데이터 포인트를 확인하고 평가, 맥락을 설명할 수 있는지 테스트
예를 들어, 매우 인기가 높고 자신의 광고와 관련성이 있다고 여기는 키워드의 CTR이 낮게 나오는 경우를 예로 들어보자. 해당 키워드를 검색 엔진에 입력하고 어떤 결과가 나오는지 확인해야 한다. 특히 자신의 광고가 표시되는 위치를 파악해야 한다.
이와 관련해 분석가 자신이 DGP에 대해 잘 이해하고 있는지 확인할 수 있는 간단한 시험이 있다. 분석가 스스로가 아무 데이터 포인트나 선택하고 해당 데이터 포인트에 대해 설명력 있는 이야기를 할 수 있는지, 그리고 비 전문가 용어로 풀어낼 수 있는지 확인하는 것이다.
4. 통계 전문가에게 행동 경제학을 감안하도록 요구
통계 전문가는 “데이터에 따라 모델을 선택하자”고 말할 수 있다. 틀린 말이 아닐 수 있다. 그러나 데이터 생성 과정에 결함이 있는 경우 큰 혼란으로 이어질 수 있다. 데이터 분석 전문가가 어깨 너머로나마 마케팅 현실을 보고 설명하도록 한다면 이러한 혼란을 막고 효율적인 모델을 구성하는데 큰 도움이 된다.
오늘날 통계 및 데이터 분석에서는 보편적인 실수가 급증하고 있다.. 데이터 재난을 피하기 위한 최소한의 첫걸음은 통계 작업 시 곳곳에 존재할 수 있는 지뢰의 정체와 위치를 파악하는 것이다.
* Xiajing Dong은 산타 클라라 대학 비즈니스 스쿨 마케팅 및 비즈니스 애널리틱스 부교수이며, John Heineke는 동 대학 경제학 및 비즈니스 애널리틱스 교수다. dl-ciokorea@foundryco.com