자세히 보기

katherine_noyes
By katherine_noyes

옛 것 vs. 새 것’ 빅데이터가 바꿔가는 데이터베이스 지형도

‘데이터베이스’란 말에 대부분의 사람들은 30년 이상 이 세계를 지배한 RDBMS를 떠올릴 것이다. 하지만 이러한 이런 시기는 조만간 막을 내릴 전망이다.

오늘날 여러 새로운 도전자들이 이 핵심 기업 시장을 두고 경쟁을 벌이고 있다. 이들은 다양한 방식으로 이 시장에 접근하고 있지만 대부분 빅데이터를 노리고 있다는 점에서 유사하다.

이들 새로운 대안들이 확산되는 배경에는 빅데이터의 근본에 있는 ‘3V’(Volume, Velocity, Variety) 속성이 있다. 기본적으로 오늘날의 데이터는 그 어느 때보다도 많은 양이 더욱 빠르게 생성되고 있으며 더욱 다양하기도 하다. 다시 말해, 이것은 새로운 데이터 세계다. 하지만 전통적인 관계형 데이터베이스 관리 시스템은 이런 상황에 맞춰 개발되지 않았다.

분석 및 데이터 공학 컨설팅 기업 KD너겟(KDnuggets)의 사장 그레고리 피아테스키 샤피로는 “RDBMS는 태생적으로 용량이 크고 빠르며 다양한 데이터에 맞추어 확장할 수 없는 한계를 지니고 있다”라고 말했다.

하테 행크스(Harte Hanks)가 최근 이를 실감한 기업이다. 2013년경까지 이 마케팅 서비스 기업은 마이크로소프트 SQL 서버(Microsoft SQL Server)와 오라클 RAC(Oracle Real Application Clusters) 등의 여러 데이터베이스 조합을 사용하고 있었다.

하테 행크스의 기술 및 개발 책임자 신 아아누찌는 “시간이 지남에 따라 데이터가 증가하면서 기존 시스템이 정보를 충분히 빠르게 처리하지 못한다는 사실을 깨달았다. 서버를 계속 구매한다고 해결될 문제가 아니었다. 우리는 외적으로 확장할 수 있는 플랫폼이 필요했다”라고 말했다. 이아누찌는 이어 장애를 최소화하는 것이 핵심 과제였기에 단순하게 하둡(Hadoop)으로 전향할 수는 없었다고 덧붙였다.

이 기업이 선택한 대안은, 하둡 빅데이터 플랫폼 위에 완전한 SQL 데이터베이스를 결합하고 기존의 애플리케이션이 연계될 수 있도록 한 스플라이스 머신(Splice Machine)이었다.

이아누찌는 현재 도입 초기 단계이지만 고장 허용 한계 향상, 높은 가용성, 가외성, 안정성, ‘전반적인 성능상 이점’ 등을 포함하여 여러 장점이 이미 드러나고 있다고 전했다.

IDC의 연구 부사장 칼 올롭슨에 따르면 새로운 데이터베이스 기술의 등장을 가속화하는 환경적 요인들이 존재한다.

그는 “우선 우리가 사용하는 장비는 과거보다 대용량 데이터 콜렉션을 빠르고 유연하게 처리할 수 있는 능력이 뛰어나다”라고 언급했다. 예전에는 이런 콜렉션을 회전식 디스크에 보관해야 했고 데이터는 특정한 방식으로 구조화해야 했다. 그러나 이제는 64비트 주소화가 가능하기 때문에 대형 메모리 공간뿐만이 아니라 훨씬 빠른 네트워크와 복수의 컴퓨터를 하나로 묶어 하나의 거대한 데이터베이스로 기능하는 기능을 구성할 수 있다고 그는 설명했다.

워크로드 또한 바뀌었다. 10년 전만 하더라도 웹 사이트는 대부분 정적이었다. 그러나 오늘날은 웹 서비스 환경 및 인터랙티브 쇼핑 경험의 시대다. 즉, 결과적으로 새로운 수준의 확장성이 요구되고 있다고 그는 진단했다.

오늘날 기업들도 데이터를 새로운 방식으로 활용하고 있다. 전통적으로 기업은 대부분 얼마나 많이 판매했는지 기록하고 이런 데이터를 분석이 가능한 곳에 저장하는 등의 트랜잭션(Transaction) 처리에 초점을 두고 있었지만 지금은 더 많은 것을 하고 있다. 애플리케이션 상태 관리가 한 예이다.

온라인 게임을 즐기고 있다고 가정해 보자. 사용자의 움직임을 여러 개의 서버가 처리한다 하더라도 연속적인 경험을 제공해야 한다. 이런 데이터를 반드시 처래해 기업들은 “왜 아무도 크리스탈룸을 통과하지 않을까” 같은 문제를 분석할 수 있어야 한다. 온라인 쇼핑 환경에서는 사람들이 특정 신발 브랜드의 컬러 선택을 클릭한 이후에 실제로 구매를 하지 않는 이유 같은 문제가 될 수 있다.

올롭슨은 “예전에는 이런 문제를 해결하기 위해 시도하지 않았거나 시도했다 하더라도 제대로 된 틀에 맞추어 분석하지 못했다”라고 말했다.

하둡은 오늘날의 여러 경쟁자들 중에서 무거운 편이다. 그 자체가 데이터베이스는 아니지만 빅데이터(Big Data)를 다루는 기업들을 위해 핵심적인 역할을 할 수 있을 정도로 성장했다. 기본적으로 하둡은 고도로 병렬화된 애플리케이션을 구동하기 위한 데이터 중심적인 플랫폼으로 확장성이 매우 뛰어나다.

올롭슨은 이 덕분에 기업들이 추가적인 값 비싼 서버를 통해 “위로” 확장하는 대신에 분산된 방식을 통해 “외부로” 확장할 수 있게 됐으며, 결과적으로 “대규모 데이터 콜렉션을 한데 묶어 분석하기가 매우 저렴해졌다”라고 분석했다.

이 외에 새로운 RDBMS 대안으로는 NoSQL 서비스 군이 있다. 여기에는 데이터베이스 관리 시스템인 몽고DB(MongoDB)와 마크로직(MarkLogic)이 포함된다. 이들은 DB-엔진스(DB-Engines) 자료에 따르면 4번째로 인기가 높다.

마크로직의 제품 담당 부사장 조 파스콰는 “관계형 기술은 30년 동안 활용된 훌륭한 기술이지만 기술적 제약과 시장 요건이 다른 시대에 개발되었다”라며 다음과 같이 설명했다.

“노트북에 있는 유일한 프로그램이 엑셀(Excel)이라고 상상해 보자. 친구 사이의 네트워크를 추적하고 싶은 상황이라면 어떻게 해야 할까? 계약서를 작성해야 하는 상황이라면 어떨까? 이들 시나리오는 엑셀의 행과 열에 적합하지 않은 데이터다.”

그는 이어 데이터 세트를 조합하는 것이 특히 까다로울 수 있다며 “관계형 기술에는 모든 데이터 세트를 조합하기 전에 모든 행을 어떻게 정렬할지 결정해야 한다. 그러나 우리 마크로직의 솔루션은 어떤 포맷이나 구조도 즉시 사용할 수 있다”라고 말했다.

그에 따르면 NoSQL 데이터베이스는 관계형 데이터 모델을 사용하지 않으며 일반적으로 SQL 인터페이스가 없다. 여러 NoSQL 스토어가 속도와 기타 요소를 위해 일관성을 절충하고 있지만 마크로직은 기업에 적합하도록 일관성을 좀더 감안한 옵션을 자체 서비스로 제공하고 있다.

한편 마켓 리서치 미디어(Market Research Media)에 따르면 NoSQL 시장의 성장이 상당한 것은 사실이다. 그러나 모두가 이것이 적절한 접근방식이라고 생각하는 것은 아니다.

스플라이스 머신의 CEO 몬테 즈웨벤 은 NoSQL 시스템이 “확장 아키텍처를 통해 여러 문제를 해결했지만 SQL을 포기했다”라며, 결과적으로 이로 인해 기존 코드에 문제가 발생한다고 지적했다.

스플라이스 머신은 NewSQL이라는 다른 대안 클래스의 하나다. 앞으로 수 년 동안 강력한 성장세가 예상되는 분야이기도 하다.

즈웨벤은 자사 솔루션에 대해 “원칙적으로는 SQL을 유지하면서도 확장 아키텍처를 추가한다”라고 설명하며, “무엇인가 새로운 것이 필요한 때이지만 사람들이 기존의 것을 다시 작성하지 않도록 우리가 돕고 있다”라고 덧붙였다.

이 밖에 딥 인포메이션 사이언스(Deep Information Sciences) 또한 SQL을 고수하지만 다른 접근방식을 취하고 있다.

해당 기업의 DeepSQL 데이터베이스는 동일한 API(Application Programming Interface)와 관계형 모델을 MySQL로 사용하고 있기 때문에 이를 활용하기 위해서는 애플리케이션 변경이 필요하다. 하지만 기계 학습을 이용해 데이터를 다른 방식으로 처리한다.

DeepSQL은 작업부하의 조합에 상관 없이 물리, 가상, 클라우드 호스트에 자동으로 적응할 수 있기 때문에 수동 데이터베이스 최적화가 필요 없다. 그 결과 성능뿐만이 아니라 “수 천억 줄로” 확장할 수 있는 능력을 제공한다고 해당 기업의 CSO(Chief Strategy Officer) 채드 존스는 설명했다.

데이터를 위한 최초의 진정한 수학적 기초를 고안했다고 말하는 알제브레익스 데이터(Algebraix Data)는 또 다른 접근방식을 취하고 있다. 이 기업의 찰스 실버 CEO는 컴퓨터 하드웨어의 경우 제작 전에 수학적으로 모델링 하지만 소프트웨어는 그렇지 않다며 다음과 같이 말했다.

“소프트웨어 그리고 특히 데이터는 수학적인 기초 위에서 구축된 적이 없다. 소프트웨어는 대체적으로 언어학의 문제였다.”

실버는 이어 5년 동안의 R&D를 통해 알제브레익스가 “범용 데이터 언어”를 위한 수학적인 집합론을 이용한 “데이터 대수학”이라는 것을 개발했다고 말했다.

그는 “빅데이터의 비밀은 빅데이터가 여전히 작은 사일로(Silo) 안에 머무르고 있기 때문에 다른 데이터와 섞이지 않는다는 점이다. 우리는 이 모든 것을 수학적으로 표현하여 통합할 수 있다는 사실을 입증했다”라고 강조했다.

이런 기초 위에 구축된 플랫폼을 갖춘 알제브레익스는 현재 기업 비즈니스 분석 서비스를 제공하고 있다. 알제브레익스가 약속하는 이점은 성능, 수용력, 속도 향상이다.

기존 강자들의 진화
시간이 지나면 이들 여러 도전자의 성패가 판가름날 것이다. 물론 그 동안 오라클 등의 장기 집권 리더도 가만히 있지는 않을 것이다.

ODST(Oracle Database Server Technologies) 부사장 앤드류 멘델슨은 “소프트웨어는 유행에 민감한 산업이다. 인기가 있던 것이 인기가 없다가 다시 인기를 얻곤 한다”라며, 오늘날 많은 스타트업들이 “옛 것을 가져다가 살짝 손을 보곤 한다”라고 표현했다.

멘델슨은 이어 SQL이 “비즈니스 분석가들이 질문을 던지고 답을 얻는 유일한 언어이며, 그들이 반드시 프로그래머가 될 필요는 없다. 관계형 시장은 언제나 큰 규모를 유지할 것이다”라고 자신했다.

그는 또 관계형 데이터베이스 제품이 진화해 구조화되지 않은 데이터를 지원하기도 했었다고 말했다. 2013년, 오라클의 데이터베이스가 12c 버전에사 JSON(JavaScript Object Notation) 지원을 추가한 바 있다.

멘델슨은 즉 다른 종류의 데이터베이스가 필요하다기보다는 산업의 변화를 주도하는 비즈니스 모델이 바뀌고 있는 것이라고 진단했다.

그는 “클라우드에서는 모두가 향하는 곳이다. 대기업들은 이미 클라우드에 진출해 있는 상황에서 작은 기업들이 있을 공간이 있을까? 아마존(Amazon)의 클라우드에서 아마존과 경쟁할 수 있을까? 아마 어려울 것이다”라고 그는 말했다.

가트너의 연구 책임자 릭 그린왈드도 의견이 비슷하다. 그는 “새로운 대안들의 경우 전통적인 RDBMS만큼 기능이 완전하고 탄탄하지 않다. 일부 사용 사례는 새로운 경쟁자들을 통해 처리할 수 있겠지만 전부는 아니며, 하나의 기술로는 어림도 없다”라고 말했다.

그린왈드는 앞으로 전통적인 RDBMS 벤더들이 자사의 제품에 새로운 기능을 추가하게 될 것으로 보고 있다. 또 전반적인 데이터 관리 생태계에 새로운 도전자들이 지속해서 등장할 것이며, 새로운 도전자 중 일부는 살아 남겠지만 “많은 도전자들이 인수되거나 파산할 것으로” 전망했다.

IDC의 올롭슨 역시 오늘날의 새로운 기술이 “스스로 빠르게 진화하고 있는” 전통적인 RDBMS의 종말을 고하는 것은 아니라고 동의했다. “RDBMS는 잘 정의된 데이터에 필요하며, 그 역할이 사라지지는 않을 것”라고 그는 말했다.

하지만 그는 사물인터넷(Internet of Things)과 NVDIMM(Non-Volatile Dual In-line Memory Module) 같은 새로운 기술이 등장함에 따라 일부 새로운 도전자가 감당할 수 있는 역할이 출현할 것이라고 그는 덧붙였다.

올롭슨은 “무수히 많은 문제들 때문에 무수히 많은 해결책이 필요할 것이다. 엄청나게 많은 흥미로운 일들이 벌어지고 있다”라고 말했다. dl-ciokorea@foundryco.com