* 본 기고문은 벤더가 작성한 것으로 네트워크 월드 편집진의 수정을 거쳤다. 그러나 벤더의 시각이 일부 남아 있을 수 있다.이미지 출
최근 보안 애널리틱스 분야에서 빅데이터가 크게 유행하고 있다. 하지만 수년간 ‘데이터 레이크’를 구축하고도 쓸만한 결과를 얻기 위해 이 ‘데이터 레이크’를 활용할 수 없다는 사실만 알아낸 많은 회사들이 부지기수다. 때문에 구매자들은 보안 애널리틱스에 빅데이터를 활용하는데 회의적인 반응을 보이고 있다.
그리고 안타깝게도 지금 나와 있는 솔루션들에는 숫자 위주의 통계 보고서와 화려한 대시보드로 이뤄진 클러스터가 포함돼 있지만, 이런 것들은 유용성과 생산적인 보안 애널리틱스에 거의 도움이 되지 않는다. 실시간으로 의사결정을 내리고, 핵심 패턴을 발견하며, 보안 정책을 계속 밀고 나갈 지 아니면 바꿀 지를 결정하고, 보안을 크게 향상시키기 위해서는 쓸만한 데이터를 어떻게 이용할 지와 분석에 초점을 맞춰야 한다.
속도(Velocity), 다양성(Verity), 용량(Volume)이라는 3Vs 특성을 가진 복잡한 데이터세트를 위해 빅데이터가 실시간 데이터 마이닝 기법을 성공적으로 구현시켜 줄 수 있는지를 확인하려면 구글, 아마존, 넷플릭스 같은 회사들만 보면 된다. 이 회사들은 우리가 무엇을 사거나 보고 싶어하는지를 말하는 예측적 애널리틱스와 함께 빅데이터를 자사 사업에서 핵심적인 도구로 활용하고 있다. 이들의 사례가 정말 유용한 보안 애널리틱스를 위한 모델이 돼야 한다.
이 기고문에서 소개하는 5가지 테스트는 보안에서 빅데이터를 어떻게 활용할 지 도움을 줄 것이다.
테스트 1: 당신이 선택한 빅데이터 솔루션이 3Vs에 대한 기능만 가지고 있나? 만약 공급 업체가 빅데이터의 속도, 다양성, 용량 문제만 해결한다면, 당신의 빅데이터 시스템은 SIEM(Security Information and Event management)보다는 효율적이겠지만 결국에는 빅데이터 스토리지 덫에 걸리게 될 것이다. 진짜 행동을 예측하는데 빅데이터가 유용하게 만들려면, 관련 업체는 베이즈 정리(Bayes’ theorem), 회귀, 분류 알고리즘, 차원수 문제 등에 대해 이야기해야 한다. 물론 그 모든 이야기가 달나라 과학처럼 답답하게 들릴 수도 있지만 보안 사고가 급격하게 증가하고 있음을 감안한다면, 이 같은 분석은 필수다.
테스트 2: “보안 애널리틱스가 무언인가?”라고 물을 때 공급 업체가 어떤 대답을 내놓나. 만약 그 대답으로 상관관계, 대시보드, 쿼리, 경보 등에 대해 듣게 된다면 그건 구식이다. 머신러닝 라이브러리, 큐브, 코사인 매트릭스 등에 대한 이야기를 들어야 한다. 모든 것들은 대수의 법칙/이상값에 기반해야 한다. 예를 들어 수집한 통계 데이터를 공유하고 보안 정책을 매뉴얼로 규정해야 하는 사용자와는 반대로, 공급 업체가 제시하는 기술은 수많은 데이터와 수많은 내역을 활용해 자동으로 무언가를 (그리고 지속적으로 더욱 정교하게) 구축하는 것이어야 한다.
테스트 3: 보안 애널리틱스 시스템에 폐쇄형 피드백 루프가 있나? 애널리틱스는 보고서가 아니다. 애널리틱스는 의사결정을 돕는 도구다. 보안 애널리틱스는 ‘사후의 무엇이 있었는지’를 파악하는 게 아니라 앞으로 일어날 것들에 대한 예측 정확도를 높이기 위해 과거 정보를 활용하는 것이다. 예를 들어 실시간 모니터링을 수정하고 무엇을 제외할지 이야기하며 무엇보다도 경보만 보내는 게 아니라 어디에 초점을 맞출지 알려주는 애널리틱스를 찾아야 한다. 인텔리전스 보안 애널리틱스에서 적절한 알고리즘을 가진 데이터 량이 증가하면 애널리틱스와 의사결정 그리고 시스템의 유용성이 크게 향상된다.
테스트 4: 점점 더 큰 클러스터로 끌려가고 있지는 않나? 빅데이터 세계는 이상한 면이 있다. 아주 작은 일을 위해 (그리고 막대한 복잡성을 더해) 거대 클러스터를 구축하는 게 그렇다. 오늘 돈을 벌 수 있다고 해서 내일도 돈을 벌 수 있는 것은 아니다. 빅데이터 분석의 목표가 가능한 긴 시간 동안 많은 소스로부터 데이터를 취합해 통계를 내는 것이기 때문에 그 비용이 데이터량에 비례해 증가하지 않도록 할 필요가 있다. 결국 효율적으로 확장할 수 있는 플랫폼을 찾아야 한다는 의미다. NoSQL 접근방식, 칼럼이나 데이터 필드, 인메모리 분산형 병렬 프로세싱 아키텍처를 활용하는 시스템을 찾아라. 효율적인 시스템은 수 테라바이트 데이터에 한 개 노드만 필요로 해서는 안되며, 훨씬 더 다양하고 많은 데이터가 있어야 한다.
테스트 5: 데이터 관리 프레임워크가 데이터 다양성을 감당할 만큼 유연한가? 빅데이터에는 많은 레이어와 많은 옵션들이 있는데 이 가운데 일부는 도움이 되고 또 일부는 복잡성 때문에 방해만 될 수 있다. 빅데이터는 데이터 유형의 다양성을 지원해 정보의 풍부함을 제공한다. 빅데이터는 수많은 세대를 아주 신속하게 훑기에 단순성도 강조한다. 때문에 빅데이터를 JSON(JavaScript Object Notation)과 유연한 데이터포맷으로 통합하는 것 같은 현대적 데이터 접근방식을 찾는 게 중요하다.
빅데이터를 이해하고 활용하는 것이 보안 애널리틱스의 핵심이지만 빅데이터에도 거품이 존재하며 진위 분간이 어려운 이야기들이 많다. 여기 소개된 5가지 간단한 테스트가 잡음을 걸러내고 당신이 필요로 하는 보안 애널리틱스를 제공할 수 있는 솔루션 선택에 도움이 되기 바란다.
*j소나(jSonar)는 빅데이터 애널리틱스 웨어하우스를 개발하는 업체며, Ron Bennatan은 j소나의 공동 창업자다. dl-ciokorea@foundryco.com