자세히 보기

Mary Branscombe
Contributing writer

장밋빛 기대에 찬물··· 흔한 ‘데이터 과학’ 실수 12가지

이미 수많은 기업과 기관들이 빅데이터와 예측 분석, 자동화된 알고리즘으로 비즈니스 프로세스와 고객 지원, 의사결정을 강화하는 데 도움을 주는 도

이렇게 데이터를 활용해 의사 결정을 내리고, 성과를 향상시키는 데 많은 관심이 쏠려 있지만, 데이터 사이언스 전문가와 전문성은 아직 부족하고 미흡하다. 특히 이제 막 데이터 사이언스를 활용하는 노력을 시작했다면, 흔히 저지르는 실수들을 주의할 필요가 있다. 

1. 데이터를 사용할 준비가 되었으며, 필요한 모든 것이 갖춰졌다고 가정한다
수집한 데이터의 양과 품질을 모두 학인하고, 이를 활용할 계획을 수립해야 한다. 데이터닷월드(Data.world)의 데이터 과학자 겸 지식 엔지니어인 조나단 오티즈는 “대부분의 시간, 때론 80%에 달하는 시간을 데이터 획득과 정리에 투자하게 된다. 그리고 추적해야 할 것들을 추적하고 있기 때문에, 데이터 과학자가 자신이 할 일을 할 수 있다고 가정하곤 한다”라고 말했다.

그렇지만 올바른 데이터를 추적하고 있어도 기록을 잘못하고 있을 수 있다. 또는 기록 방식이 시간이 지나면서 바뀔 수 있고, 데이터를 수집하는 동안 수집 시스템이 바뀔 수도 있다.
 오티즈는 “매달 조금씩 바뀌고 있다고 가정하자. 분석을 하거나, 모델을 구축할 때 데이터 전체를 사용하지 못하게 된다. 시스템이 바뀌었기 때문이다”라고 경고했다.

테크타겟(TechTarget)의 존 스타이너트 최고 마케팅 책임자(CMO)에 따르면, 올바른 데이터를 수집하고 있어도 데이터 양이 적고 독립적인 변수의 수가 많아 B2B 마케팅과 영업 같은 비즈니스 분야를 대상으로 한 예측 모델 구축이 힘들 수도 있다.

그는 “데이터 사이언스는 데이터가 많을수록 좋고, 예측 모델은 데이터가 많을수록 강력해진다. 트랜젝션 비율은 낮고 트랜젝션에 영향을 주는 독립 변수는 많으면 데이터 세트의 양은 적고 관계는 복잡해진다. 그리고 이는 예측 모델의 힘을 약화시킨다”라고 설명했다.

이를 해결하는 한 가지 방법은 ‘구매 동기(의도)’ 데이터 같은 데이터 세트를 구입하는 것이다. 물론 소속 기업에서 활용할 수 있는 데이터 세트여야 한다. 또는 데이터를 시뮬레이션 할 수도 있다.

이와 관련해 아반데(Avande)의 친탄 샤 수석 컨설턴트 겸 데이터 과학자는 시뮬레이션은 각별히 주의를 기울여 실시해야 한다고 강조했다. 샤는 “데이터가 처음 수립한 가정과 가설에 맞지 않을 수도 있다”라고 말했다.

2. 데이터를 탐구(조사)하지 않은 상태에서 데이터 사이언스를 시작한다
데이터 세트가 제시할 수 있는 것에 대한 ‘이론’과 ‘직관’이 있을 것이다. 그러나 데이터 팀은 데이터를 사용해 데이터 모델을 훈련하기 전에 데이터를 상세히 조사하고 탐구하는 시간을 투자해야 한다.

오티즈는 “반직관적인 무엇을 발견했다는 것은 가정(가설)이나 데이터가 부정확할 수 있다는 의미다. 데이터를 조사하고, 분류하고, 탐구적으로 분석하는 것이 가장 중요하다. 이를 생략하거나 서둘러 대충 하는 사람들이 많다. 데이터에 대해 철저히 이해를 해야 한다”라고 말했다. 이렇게 사전에 탐구를 하면, 데이터가 더 빨리 주제 전문성과 비즈니스 통찰력을 토대로 적절한 ‘스토리’를 제시한다는 사실을 확인하게 될 것이라고 그는 덧붙였다.

3. 지나치게 큰 기대를 한다
AI를 둘러싼 ‘하이프(과대 선전)’ 때문에 “컴퓨터 알고리즘에 데이터를 공급하면, 알아서 모든 것을 파악한다”라고 생각하는 사람들이 많다. 샤는 “데이터가 제 아무리 많아도, 이를 유용한 형태로 전환하기 위해서는 사람 전문가가 필요하다”라고 말했다.

기업이 과거 했던 일만 조사해서는 새로운 기회를 발굴할 수 없다. 지금까지 했던 일의 효율성을 높이는 방법만 찾을 수 있을 뿐이다. 스타이너트는 “미래를 예측하면서 과거를 많이 사용하면 새로운 기회를 찾을 확률이 낮아진다”라고 지적했다.

제품이나 서비스 수요를 찾기 위해 써드파티 데이터를 구입했다고 가정하자. 이 경우에도 제품이나 서비스 판매에 도움이 될 수 있다는 보장이 없다. 그는 “데이터 모델이 당신의 상품(서비스)과 잘 어울리는 고객 기업을 알려줄 수 있다. 그러나 해당 기업에 지금 당장 특정한 필요사항이 있는지는 알려주지 못한다”라고 덧붙였다.

오티즈는 “사람들은 과거 다른 분야와는 다르게, 데이터 과학자를 철석같이 신뢰하고 있다. 많은 리소스를 투입한다. 그리고 모든 질문에 대답을 할 것이라고 기대한다. 이런 식으로 데이터 과학자에게 큰 기대를 품고 있다. 데이터를 사용하면 질문에 대답을 하고, 의사결정을 견인할 수 있다고 생각한다”라고 말했다.

오티즈에 따르면, 데이터 과학자들은 작은 프로젝트부터 시작해 빨리 성과를 일궈내는 방법으로 기업과 기관에 가치를 입증해 보여야 한다. 그는 “쉽고 빠르게 달성할 수 있는 목표를 추구해야 한다. 기술 ‘토끼굴’에 들어가고, 정말 큰 가치가 있을 것으로 생각하는 대형 프로젝트에 많은 시간을 투자하는 방식으로 시작을 하면 안 된다”라고 강조했다.

4. 새 데이터 모델 테스트를 위해 통제 그룹을 활용하지 않는다
데이터 모델 구축에 많은 시간과 돈을 투자한다면, 투자 가치를 실현시킬 수 있는 모든 장소에서 이를 활용하고 싶어한다. 그러나 이런 방식으로는 모델이 실제 얼마나 잘 작동하는지 평가할 수 없다. 또 사용자가 모델을 신뢰하지 않으면, 이를 사용하지 않을 수도 있고, 그러면 테스트가 불가능하다.

해결책은 무엇일까? 스타이너트는 모델이 확실히 도입되도록 만드는 변화관리 프로그램, 이를 사용하지 않는 통제 그룹이라고 덧붙였다. 모델이 규명한 기회를 추구하는 그룹, 지금까지 해왔던 일을 경험과 독자적인 권한을 가지고 계속 추구하는 통제 그룹을 운영해야 한다는 의미다.

5. 가정(가설)이 아닌 목표로 시작한다
48시간 이내에 해결하는 고객 서비스 비율 80% 달성, 분기 기업 실적 10% 향상 등 특정한 성과를 제공할 수 있는 데이터 모델을 찾으려 시도하기 쉽다. 그러나 이런 매트릭스는 불충분하다. 오티즈는 다음과 같이 설명했다.

“가정(가설)으로 시작하는 것이 더 낫다. 전체 매트릭스에서 곡선이나 선을 보는 경우가 많다. 이를 옮기고 싶어한다. 좋은 비즈니스 목표가 될 수 있지만, 이를 끌어 당기기 위해 필요한 레버를 파악하기 어렵다. 향상과 개선을 가져오는 것에 대한 가정(가설)을 통제 그룹을 이용하거나, 데이터를 탐구해 테스트해야 한다.”

“통제 그룹으로 분리해 테스트를 실시할 수 있고, 두 그룹이 대표성 있는 표본을 제공한다면, 사용하고 있는 방법이 영향을 주고 싶어하는 대상에 실제 영향을 주는지 여부를 확인할 수 있다. 사실에 대한 데이터를 조사하는 것이라면, 가정(가설)으로 시작하는 것이 범위를 좁히도록 도움을 준다. 매트릭스를 10% 증가시켜야 한다면 영향을 줄 수 있는 것에 대한 가설을 수립한다. 그러면 데이터에서 이에 대해 추적하는 탐구 데이터 분석을 할 수 있다. 물으려는 질문을 명확히 하고, 테스트를 할 가설을 수립한다. 그러면 많은 시간을 절약할 수 있다.”

6. 데이터 모델 정체를 방치한다
문제에 효과가 있는 데이터 모델이 있다고 가정하자. 이 경우, 이 모델을 계속 사용할 수 있다고 생각할 수도 있다. 그러나 모델을 업데이트해야 한다. 시간이 지나면서 또 다른 모델을 구축해야 할 수도 있다.

오티즈는 “시간이 지나면서 기능이 바뀌게 된다. 지속적으로 유효한지 파악하고, 모델을 업데이트해야 한다”라고 강조했다.

모델은 여러 이유에서 시대에 뒤쳐질 수 있다. 세상이 변하고 기업이 바뀐다. 모델이 유용한 것으로 입증된 경우 더욱 그렇다.

스타이너트는 “모델을 정적인 것, 고정된 것으로 봐서는 안 된다. 시장이 계속 변하기 때문이다. 시장 선호도가 과거에서 크게 벗어나 진화하면, 기업은 분기점을 만나게 된다. 모델 성능이 하락한다. 또는 경쟁자가 시장에서 소속 기업의 활동을 학습할 수도 있다. 시간이 지났을 때 모델을 강화할 수 있는 방법을 계속 실험해야 한다. 차별화에 대한 새로운 기회를 표면화 시킬 실험들을 해야 한다”라고 강조했다.

7. 최종 결과에 대해 종합적으로 모니터링하지 않는다
(모델을) 사용하는 다른 절반의 통제 그룹은 모델의 결과가 얼마나 좋은지 측정한다. 이 때 기업은 프로세스 전체를 추적해야 한다. 그렇지 않으면 잘못된 목표에 맞춰 최적화(능률화)를 하게 된다.

스타이너트는 “예를 들어, 고객 전화 지원 서비스에 봇을 도입해 활용한다고 가정하자. 봇이 고객 만족도를 높이는지 계속 확인해야 한다. 그런데 이런 확인 없이, 그저 인건비가 줄었다고 축하를 한다. 이런 기업들이 많다”라고 지적했다. 고객이 지원 요청을 중단한 이유가 문제를 해결해서가 아니라, 봇이 해결책을 제공하지 못해서일 수도 있다. 물론 고객 만족도가 급하락 한다.

8. 비즈니스 전문가를 망각한다
필요한 모든 대답이 데이터에 있고, 개발자와 데이터 과학자가 알아서 이를 찾을 수 있다고 생각하는 것은 큰 착각이고 실수이다. 비즈니스 문제를 이해하는 사람을 반드시 참여시켜야 한다.

샤는 “지식과 전문성이 있는 데이터 과학자가 결국 언젠가는 문제를 해결할 지도 모른다. 하지만 비즈니스 전문가와 데이터 과학자가 협력을 하면 문제 해결이 훨씬 쉬워질 것이다. 데이터 사이언스 알고리즘의 성패는 성공적 기능 엔지니어링(feature engineering)에 달려 있다. 비즈니스 전문가가 여기에서 가치를 창출해 기여한다”라고 강조했다.

(심지어는 데이터를 조사하기 앞서) 데이터 팀과 비즈니스 부문의 이해당사자들의 대화로 프로젝트를 시작하는 것이 좋다. 모든 사람이 프로젝트의 목적과 목표를 명확히 이해하도록 만들기 위해서다.

오티즈는 “그래야 목표를 달성할 수 있는지 여부, 다시 돌아가 새로운 방식으로 질문을 재정립하거나, 다른 데이터 소스를 획득해야 하는지 여부를 확인하는 탐색 데이터 분석을 제대로 실시할 수 있다”라고 말했다.

9. 지나치게 복잡한 도구를 선택한다
첨단 머신러닝 도구는 호기심을, 새로운 기법은 강력함을 선물한다. 그러나 이와 동시에 ‘과잉’일 수도 있다. 오티즈는 “컴퓨터 성능과 최첨단 모델에 많은 리소스를 투입하기 쉽다. 프로젝트의 일부 요소에 지적 호기심이 발동할 수도 있고, 필요 이상으로 ‘과잉’인 최신 알고리즘을 테스트 하고 싶은 욕구가 들 수도 있다. 또는 그냥 시험을 해보고 싶은 것일 수도 있다”라고 말했다.

그러나 해야 할 일은 질문에 대답하는 단순한 방식을 찾는 것이다. 오티즈는 “더 정교한 최신 방법들을 시도하기 전에 단순한 방법들을 모두 시도해야 한다”고 강조했다.

그는 딥러닝 같은 정교한 알고리즘을 사용할 때 ‘과잉’ 문제가 자주 발생하는 경향이 있다고 덧붙였다. 그는 “현재 갖고 있는 데이터에는 아주 정확한 모델이, 새로운 정보에는 제대로 작동을 하지 않을 수 있다”라고 말했다.

비즈니스 전문가와 협력해 대답을 찾아야 하는 질문을 결정하면 기법 선택에 큰 도움을 받을 수 있다. 오티즈는 다음과 같이 설명했다.

“많은 데이터 과학자가 머신러닝에 초점을 맞추고 있으며, 많은 머신러닝은 예측에 초점이 맞춰져 있다. 그러나 답을 찾으려는 질문이 예측에 대한 질문이 아닐 수도 있다. ‘지난 분기의 영업 데이터’는 여러 다른 많은 것을 의미할 수 있다. 신규 고객과 관련된 영업을 예측해야 하는가? 아니면 지난 분기의 특정 주간에 매출이 정체된 이유를 알고 싶은가?”

10. 자신의 문제에 맞지 않는 도구를 사용한다
오늘날 데이터 사이언스 및 머신러닝 사례가 아주 많다. 샤는 “데이터 사이언스가 기하급수적으로 성장하고 있는 이유 중 하나는 쉽고 빠르게 프로토타입을 개발할 수 있는 수 많은 종류의 오픈 소스 구현 도구가 존재하기 때문이다. 그러나 이런 구현 도구는 특정 유즈 케이스가 대상인 경우가 많다. 필요한 것이 다르다면, 독자적인 버전을 구축하는 것이 더 낫다. 독자적인 데이터 클리닝 및 기능 구축 루틴을 구현해야 한다. 그래야 통제력이 높아진다”라고 말했다.

11. 인과 관계와 교차 검증 같은 기본 사항을 오해하고 있다
교차 검증(Cross validation)은 별개 트레이닝 세트의 데이터가 충분하지 않을 때 예측 모델의 정확성 추정에 도움을 준다. 교차 검증은 데이터 세트를 몇 차례 분리하고, 여러 부분을 훈련하고, 각각 모델을 테스트하고, 훈련한 데이터 하위 세트 모두에서 동일한 정확도를 달성했는지 확인한다.

그러나 이를 모델이 항상 교차 검증 점수만큼 정확한지 입증하는 용도로 사용할 수는 없다. 오티즈는 “일반화(정규화)할 수 있는 모델은 새로 유입되는 데이터에 정확한 방식으로 반응한다. 그러나 교차 검증으로 이를 입증할 수 없다”고 설명했다. 이미 갖고 있는 데이터만 사용하기 때문에, 모델은 데이터만큼 정확한지만 알려주는 것이다.

또 상관 관계는 인과 관계가 아니다. 상관 관계가 있다고, 하나가 다른 하나에 영향을 준다는 의미는 아니다 연결되지 않은 데이터의 흥미로운 상관 관계를 보이는 ‘가짜 상관 관계(Spurious Correlations)’에 주의해야 한다.

데이터 세트를 탐구 분석해 예측할 수 있는 것과 상관 관계가 존재하는 값을 파악할 수 있지만, 이는 아무 것도 알려주지 않을 수 있다. 고객이 다시 방문을 할지 여부와 시기를 예측하기 위해 전자상거래 사이트에서 고객 행동을 추적한다고 가정하자. 고객 로그인 기록은 아무 것도 알려주지 않는다. 고객이 다시 방문을 했기 때문에 로그인을 한 것이기 때문이다. 그는 “로그인은 분명히 재방문과 상관 관계가 있다. 그러나 이를 모델에 포함시키는 것은 실수이다”라고 말했다.

12. 사용자가 이해할 수 있는 것을 과소평가한다
현업 사용자들이 스스로 통계 분석을 수행할 수 없을지 모른다. 그렇다고 ‘오차 한계’, ‘통계적 유의성’, ‘타당도’를 모른다는 의미는 아니다.

오티즈는 “비즈니스 팀에 전달되는 분석이 (정확한 통계, 추정이나 예측, 전망 등) 하나의 숫자가 있는 하나의 슬라이드인 경우가 많다. 그러나 이런 하나의 가치를 전달할 때 아주 중요한 것이 ‘오차 한계’이다”라고 말했다.

이런 데이터 분석을 토대로 비즈니스 결정을 내린다면, 결과에 부여된 신뢰도(신뢰 수준)를 명확히 전달해야 한다. 그렇지 않으면, 의사 결정자는 이런 시스템을 신뢰하지 않는다. 또 의사 결정자에게 이를 이해할 기술적인 전문성이 없다고 가정하면 안 된다.

* Mary Branscombe는 20년 이상 프로그래밍 언어, 윈도우, 오피스, 웹, 소비자 기기 등 방대한 IT 영역을 다뤄온 전문 프리랜서 저널리스트다.

dl-ciokorea@foundryco.com

Mary Branscombe
Contributing writer

Mary Branscombe is a freelance journalist who has been covering technology for over three decades and has written about everything from programming languages, early versions of Windows and Office and the arrival of the web to consumer gadgets and home entertainment.

Her work has appeared in the Financial Times, The Sunday Times and the Guardian as well as several technology publications including The Register, CIO.com, InfoWorld, ComputerWorld, ZDNet, The New Stack, Ask Woody, TechRadar Pro, Tom’s Hardware, PC Advisor, and a long list of others. She founded and edited IT Expert magazine, which covered IT consultancy for the small business market.

Mary holds an M.A., Literae Humaniores from the University of Oxford and an M.Sc., Intelligent Knowledge Based Systems from the University of Essex.

이 저자의 추가 콘텐츠