오늘날 테크놀로지 시장의 주인공은 단연 빅 데이터다. 빅 데이터는 침입 감지에서 사기 예측, 나아가 항암치료 등의 다양한 활동들에 적용 가능한 솔루션으로 동작하면서 시장의 환호를 자아내고 있다. 가격적 측면에서도 거품이 걷혀가는 모습을 보여주고 있다.
하지만 (다양한 형태의 대량의 데이터를 고속으로 수집한다는 설명으로 정의가 가능할) 빅 데이터는, 모든 문제에 대한 만병통치약이 아니다. 빅 데이터를 둘러싼 이런저런 미신들은 시장 곳곳을 떠돌고 있다. 이러한 미신을 순진하게 믿어버린다면, 기업은 나아갈 방향성을 잃거나 시간과 돈을 낭비할 것이다. 또는 시장 경쟁력을 상실하고 기업 평판에 타격을 입을 위험이 있다. 여기 빅 데이터를 둘러싼 대표적인 미신들을 살펴본다.
미신 1: 데이터 과학자만이 빅 데이터를 다룰 수 있다.
미신 2: 데이터가 클수록 가치도 커진다
미신 3: 빅 데이터는 대기업을 위한 것이다
미신 4: 일단 수집하고, 분류는 다음에 하라
미신 5: 모든 데이터는 동등하다
미신 6. 예측은 구체적일수록 더 좋다
미신 7: 빅 데이터는 곧 하둡(Hadoop)이다
미신 8: 최종사용자은 빅 데이터에 직접적으로 액세스할 필요가 없다
미신 9: 빅 데이터는 큰 문제를 위한 것이다
미신 10. 빅 데이터 거품, 언젠가는 꺼질 것이다
미신 1: 데이터 과학자만이 빅 데이터를 다룰 수 있다
데이터 과학자는 빅 데이터로 모든 것을 가능케 하는 마법사가 아니다.
펜 메디신(Penn Medicine)의 데이터 애널리틱스 사업부 선임 디렉터 패트 패럴은 “기업이 우선적으로 필요로 하는 정보가 무엇인지도 모르는 상황에서 데이터 과학자에게 빅 데이터로부터 정보를 발굴해낼 것을 기대하는 것은 앞뒤가 맞지 않는 일이다. 올바른 빅 데이터 활용을 위해서는 업종에 익숙하고, 전문 지식 역시 갖추고 있으며, 그 곳에 존재하는 문제와 이를 해결하는데 필요한 시각을 갖춘 전문가가 필요하다”라고 말했다.
예를 들어, 의료 시스템과 의과 대학을 모두 갖추고 있는 펜 메디신의 경우에는 오래 전부터 데이터 의료 시스템을 통한 데이터 웨어하우스 임상 데이터 수집 활동을 진행해왔다. 그리고 의과 대학 내에서는 새로운 기술을 통해 인간 게놈 시퀀싱 과정을 진행하고 있다. 게놈 시퀀싱 활동에는 지금까지 시스템을 통해 수집된 막대한 데이터가 활용된다.
패럴은 “(그것을 발굴하지 못했던 과거에도) 우리는 데이터가 귀중한 자산임을 이해하고 있었다. 그리고 드디어 컴퓨팅의 힘을 이용해 여기에 접근할 수 있게 되었다. 데이터 애널리틱스와 의약 산업에 대한 전문 지식이 합쳐져 예측적 의료의 새로운 장이 열린 것이다”라고 말했다.
미신 2: 데이터가 클수록 가치도 커진다
데이터를 수집하고 저장하고 목록화하는 과정에는 상당한 시간과 자원이 소요된다. 때문에 무비판적으로 그저 대량의 데이터를 수집하기만 하는 태도는 프로젝트의 효율성을 크게 떨어뜨린다고 패럴은 말한다.
이러한 이유로 패럴은 데이터 수집 작업을 진행하기에 앞서 그들이 필요로 하는 핵심 성과 지표가 무엇인지에 관한 아이디어를 명확히 할 필요가 있다고 조언했다.
그는 “이 들판 어딘가엔 분명 귀중한 지혜의 보물이 묻혀있다고 해서 들판 전체를 파헤치는 것은 어리석은 일이다. 당신에게 필요한 핵심은 삽을 꽂을 정확한 지점을 이해하는 것이다”라고 말했다.
미신 3: 빅 데이터는 대기업을 위한 것이다
대기업들이 보다 많은 내부 데이터 소스를 갖춘 것은 사실이다. 하지만 소셜 미디어 플랫폼, 정부 기관, 데이터 벤더 등 소형 기업들에게도 역시 데이터를 수집할 통로는 다양하게 열려있다.
델 소프트웨어(Dell Software) 인포메이션 매니지먼트 솔루션즈(Information Management Solutions)의 상품 관리 부문 행정 디렉터 데린 바틱은 “의사 결정은 언제나 직감이 아닌 데이터에 기초해 이뤄지는 것이 옳다. 이는 기업의 규모와는 무관한 명제다”라고 강조했다.
또 데이터 주도 의사 결정의 빈도에 관련해서는 기업의 규모가 클수록 유리한 부분이 있는 것이 사실이지만, 결정 사항을 수정하는 것과 같은 경우에는 오히려 작은 규모의 기업에서 더욱 신속하게 진행될 수 있다고 그는 덧붙였다.
바틱은 “소형 기업들은 자신만의 베스트 프래틱스를 이용해 보다 데이터 주도적인 문화를 구축함으로써 덩치는 크지만 굼뜬 경쟁자들을 앞지를 수 있다”라고 말했다.
미신 4: 일단 수집하고, 분류는 다음에 하라
샌프란시스코에 위치한 클라우드 기반 비즈니스 인텔리전스 벤더 버스트(Birst)의 CEO 브래드 피터스는 “스토리지의 가격이 아무리 떨어져도 이를 공짜로 구할 방법은 없다. 오히려 데이터 규모의 확장 속도가 스토리지 가격 하락 속도를 능가하고 있는 것이 현실이다”라고 강조했다.
기업들은 일단 데이터를 다 모아두면 훗날 그것이 어딘가에서 사용될 수 있을 것이라 생각한다. 이런 시각에 대해 피터스는 “많은 대기업들이 막대한 데이터를 쌓아두고 있다. 모두 비용이 소요되는 활동이다. 하지만 그들 중 이 데이터를 이용해 투자에 상응하는 가치를 창출했다는 이는 보지 못했다”라고 지적했다.
일부 데이터 셋에 있어서는 수확 체감의 법칙이 적용되기도 한다. 한 예로 당신이 사람들에게 선거 결과 예측을 위한 여론 조사를 시행한다 가정해보자. 조사가 대표성을 확보하려면 일정 수 이상의 참여자가 필요하다. 하지만 일정 규모를 넘어가면, 여론 조사 대상을 증가시켜도 오차 한계 범위에 유의미한 영향을 미치지 못하게 된다.
피터스는 “언젠가 필요할 지 모른다는 이유로, 단지 약간의 정확도를 향상시키려는 이유로 엄청난 양의 데이터를 저장해둘 필요가 있을까? 아니면 더 많은 인력을 고용할 이유가 있을까? 네트워크를 안전하게 보호할 수 있는가? 예산은 제한되어 있다”고 말했다.
비 구조적 데이터 애널리틱스 전문 샌프란시스코 레코마인드(Recommind)의 빅 데이터 관리 및 정보 관리 대표 딘 곤소우스키는 이것이 비단 저장 비용의 문제만은 아니라고 말한다.
예를 들어, 데이터가 빠져 나가면 회사에서는 그에 따른 비용을 지불하게 된다. 한편 데이터가 할 일 없이 웨어하우스에서 놀고만 있는다고 해도 법정 소송 등에서 전자증거조사제도(e-discovery)의 표적이 될 수 있다.
마지막으로 데이터가 많을수록 이것들을 정리하는 것도 오래 걸린다. “저장소에 수십 억 개의 기록이 있을 경우 원하는 자료를 검색하는 것이 짧게는 수 시간, 길게는 수 주일 까지도 걸린다. 대용량 자료에 대비해 고안되지 않은 경우 막대한 양의 정보 때문에 시스템이 느려지기도 한다”고 그는 말했다.
미신 5: 모든 데이터는 동등하다
버지니아 주에서는 지난 20년 간 학생 등록, 재정 지원, 그리고 생활비 지원금 등에 대한 정보를 수집해왔다. 그렇다고 해서 반드시 20년 전에 수집해 데이터필드에 저장해 둔 데이터가 같은 데이터라는 것은 아니다.
버지니아 주 고등 교육 위원회(State Council of Higher Education)의 정책 연구원이자 데이터 웨어하우징 디렉터 토드 마사는 “직면하는 가장 큰 문제는 단지 데이터 사전에 있다고 해서 다 괜찮다고 생각하는 연구원들이다. 예를 들어, 처음에는 버지니아 주 내부 학생들의 ACT나 SAT 시험 점수만을 모았는데 갭이 발생했다. 결국 주 내, 외부 학생들 모두의 데이터를 모으게 된 경우가 있었다”라고 전했다.
그에 따르면 인종과 민족에 관한 데이터 역시 초등학교에서 고등학교, 그리고 그 이상의 고등 교육 기관에서 각기 다르게 추적한다.
사실 특정 데이터 포인트는 기관에 따라, 시기에 따라, 혹은 그 기관의 인물에 따라 다르게 보고될 수 있다. “수집하는 데이터에 대해 모든 책임을 지는 독립된 업체나 기업의 경우 상황이 다를 수도 있다. 그렇지만 어쨌든 데이터의 의미가 시간에 따라 변화하는 것은 사실이다”라고 그는 말했다.
결과적으로, 애널리스트들은 통계학적 기술뿐 아니라 데이터에 관한 국소적인 이해와 업계 전반의 트렌드에 관한 지식을 모두 갖추고 있어야 한다. 그는 “그 모든 것들을 전부 데이터 저장소에 넣을 수는 없다”라고 말했다.
외부 데이터 소스도 마찬가지다. “지난 50년 간 연방 정부 차원의 데이터 수집은 극적인 변화를 거쳐왔다. 데이터 수집의 문맥과 성격을 이해해야만 그 데이터를 잘 활용할 수 있다”고 그는 덧붙였다.
미신 6. 예측은 구체적일수록 더 좋다
사람들은 본능적으로 더 구체적인 것일수록 더 정확한 것이라 생각한다. ‘오후 3시 12분’ 이라 말하는 것이 ‘오후 몇 시쯤’이라고 말하는 것보다 더 정확하며, 일요일 아침에는 ‘반드시 비가 온다’고 말하는 기상 캐스터가 ‘이번 주말 강수 확률은 50%입니다’라고 말하는 캐스터보다 더 정확하다고 말이다.
그러나 사실은 반대다. 많은 경우 예측이 구체적일수록 정확도는 떨어진다.
예를 들어 어떤 고객이 특정 브랜드, 특정 설정의 노트북을 샀다고 해보자. 그리고 과거에 이 고객과 같은 컴퓨터를 구입한 유일한 다른 고객이 핫핑크 색 뾰족 구두 한 켤레도 샀었다고 해보자.
“이 경우 전자의 고객에게 핫핑크 색 뾰족 구두를 권하는 건 아주 구체적인 제안이긴 하지만 정확한 제안은 아니다. 또한 오차 범위도 무척 넓다”고 캘리포니아 주 산타모니카의 마케팅 업체 리텐션 사이언스(Retention Science)의 CEO 제리 자오는 설명했다.
그는 “사실 이런 오류는 마케팅 매니저나 비즈니스 매니저들 사이에서 꽤 흔하게 볼 수 있다”라고 말했다.
미신 7: 빅 데이터는 곧 하둡(Hadoop)이다
유명한 비 구조적 데이터 용 오픈소스 데이터베이스인 하둡이 요즘 들어 엄청난 관심을 받고 있다. 하지만 하둡 말고도 다른 선택지도 있다.
“NoSQL도 요즘 새롭게 떠오르고 있다. 그 밖에도 몽고DB, 카산드라(Cassandra)등 다양한 기술이 존재한다”고 SAP 빅 데이터(SAP Big Data)의 상무이지 총 관리자인 어펀 칸은 말했다.
빅 데이터 프로젝트에 따라 이들 중 다른 기술보다 더 잘 맞는 기술이 있을 수도 있다. 특히 하둡은 데이터를 여러 덩어리로 나누어 여러 개의 데이터 덩어리에서 동시에 작업하는 방식인데 이런 접근 방식이 여러 가지 빅 데이터 문제를 해결해 주기는 하지만 만능은 아니다.
빅 데이터 컨설팅 업체 루시드 웍스(LucidWorks)의 CTO 그랜트 아인어솔은 “얀(YARN)과 하둡 2가 이런 문제를 어느 정도 해결하긴 하지만, 가끔은 하둡만으론 깔끔하게 해결이 안 되는 상황도 발생한다”라고 전했다.
미신 8: 최종사용자가 빅 데이터에 직접적으로 액세스 할 필요가 없다
다양한 종류의 소스로부터 빅 데이터의 도입이 빠른 속도로, 그리고 큰 규모로 이루어 지면서 빅 데이터는 일반 직원들이 다루기엔 너무 먼 존재로 느껴지는 것이 사실이다. 하지만 반드시 꼭 그런 것만은 아니다.
병원의 집중 치료실 기기에서 발생한 데이터를 예로 들어보자. 심장 박동수, 호흡, EKG 수치 등. 그러나 의사나 간호사는 환자의 병실에 있을 때 그 당시의 수치만 보고 상태를 판단하게 된다.
“10분 전 환자 상태가 어땠는지를 볼 수도 없고, 앞으로 1시간 후 환자 상태가 어떻게 바뀔지에 대한 짐작도 하기 어렵다”고 필립스 헬스케어의 의료 정보 및 환자 보호의 최고 마케팅 경영자 앤써니 존스는 말했다.
의료진들이 환자의 과거 기록들을 즉시 볼 수 있게 되면 의사 결정을 내릴 때에도 매우 유용할 수 있다. “핵심 데이터 과학에만 목 메는 사람들은 큰 기회를 놓치는 것”이라고 존스는 말했다.
오늘날 해결 과제는 서로 다른 플랫폼과 운영 체제, 프로그래밍 언어를 사용하는 기기들이 서로 의사소통을 할 수 있도록 하는 것이다. 그것이 가능해 지면 의사나 간호사들이 필요할 때 바로 바로 지난 데이터를 활용할 수 있도록 만들어야 한다.
미신 9: 빅 데이터는 큰 문제를 위한 것이다
버스트 CEO 피터스에 따르면, 최근 최종사용자의 셀프 서비스에 대한 질문을 받은 한 대형 은행의 CIO는 이 문제에 대해 “그리 유용하게 생각하지 않는다”라고 말했다.
이런 태도를 가진 사람은 생각보다 흔하다. 특히 일부 경영진들의 경우 빅 데이터가 활용되는 곳은 따로 정해져 있다고 생각하기도 한다고 피터스는 설명했다. 즉 이들의 태도를 요약해 보면 다음과 같다.
“빅 데이터는 데이터 과학자들이 소수의, 고가치 문제 해결을 위해 사용하는 것이다. 우리는 보통 사람들도 정보에 액세스가 가능해지면서 데이터 카오스가 발생하는 것을 원하지 않는다. 이들에게 빅 데이터는 필요하지 않다.”
그러나 피터스는 이런 의견에 동의하지 않았다고 강조했다. 그는 “거대 보험회사들 사이에서는 현업 최종사용자들이 빅 데이터를 이용할 만큼 똑똑하지 않다는 생각이 만연해 있다”라고 말했다.
미신 10. 빅 데이터 거품, 언젠가는 꺼질 것이다
물론 유행은 오고 가는 것이지만, 혁신적인 기술은 유행과 상관 없이 주류로 자리잡는다. 한참 불던 ‘닷컴’열풍이 인터넷의 종말을 가져오지 않았듯 말이다.
빅 데이터 유행이 지나간 이후에도 기업들은 빅 데이터를 필요로 할 것이다. 오히려 기하급수적 성장으로 인해 이전보다 훨씬 더 많이 필요로 할 지도 모른다. IDC는 2020년까지 2년마다 수집되는 데이터 양이 2배씩 증가할 것이라는 예측을 내놓기도 했다.
게다가 단순히 현재 수집중인 것들을 더 많이 수집하는 것에서 그치지 않는다. 새로운 종류의 데이터가 나타나면서 더 거대한 데이터 저장 용량을 필요로 할 것이다.
필립스 헬스케어의 의료 정보 및 환자 보호(Patient Care & Clinical Informatics) 최고 마케팅 경영자 앤써니 존스는 “병원 측에서 모든 입원 환자의 유전자 지도를 그릴 수 있는 세상이 오게 될 것이다. 이를 통해 각 환자에게 맞게 커스터마이징 된 진료를 받을 수 있다. 게다가 빅 데이터는 정말 거대한 분량의 데이터다. 그런데 많은 CIO들이 이를 잘 인지하지 못하고 있는 것 같다”라고 말했다.
‘빅 데이터’를 단순히 하나의 유행하는 용어로 생각하는 기업들은 앞으로 자신들의 기업에 큰 영향을 미칠 수 있는 데이터 요소를 눈뜨고 놓쳐버릴 수도 있다고 필라델피아의 킹 오브 프러시아(King of Prussia) 인터랙티브 마케팅 에이전시인 캐디언트 그룹(Cadient Group)의 CTO 브라이언 힐은 지적했다.
그는 “‘빅 데이터’라는 용어 자체는 변할 수도 있다. 웹이나 인터넷과 별 차이가 없는 클라우드 컴퓨팅이라는 용어가 생겨났던 것처럼 말이다. 그러나 용어는 변할지언정 빅 데이터의 개념은 주류 기술로서 오래도록 지속될 것이다”라고 말했다. dl-ciokorea@foundryco.com