자세히 보기

Ed Tittel
By Ed Tittel

기고 |”방치하면 독, 잘 쓰면 약” 다크 데이터 다루기

기획
2014.09.265분

데이터베이스 안에 있는 콘텐츠 같은 정형 데이터는 상대적으로 관리하기 쉽다. 하지만 로그 아카이브와 태깅 정보 없는 정리되지 않은 다른 데

‘다크 파이버(Dark Fiber)’는 통신 산업을 뜻하는 말인데 많은 기업이나 조직에서 ‘다크 데이터(Dark Data)’가 같은 의미로 쓰인다. 다크 데이터처럼 가공되지도 보호받지도 않는 다량의 데이터는 스토리지 공간만 차지할 뿐 결과적으로 아무런 효과가 없다.

아이작 사콜릭은 다크 데이터를 “기업 차원에서 ‘만일을 대비하여’ 저장하지만 (현재까지) 적절한 용도를 발견하지 못한 데이터”라고 설명했다.

다크 파이버는 아무것도 하지 않은 채 기다리면서 대역폭과 저장용량만 잡아먹고 있지만, 가공하지 않고 방치된 다크 데이터는 잘못 사용하거나 소유자의 통제를 벗어났을 때 보안 위험마저 야기할 수 있다.

다크 데이터는 예측할 수 없고, 예기치 못한 위협을 가한다
다크 데이터에 관한 대부분의 논의는 조직 내 잠재적인 가치와 활용도에 초점을 맞추는 경향이 있다. 실제로 자원(돈, 도구, 시간)을 들여 다크 데이터에 갇혀 있는 정보와 가치를 개발 및 활용하려는 조직들에게 이런 잠재력은 확실히 매력적이다. 또한 이 때문에 많은 조직들이 단기적 또는 장기적인 계획에 있어서 실제로 활용할 계획이 없는데도 다크 데이터를 포기하고 싶어하지 않는다.

잠재적인 수익과 흥미가 있는 많은 정보 자산과 마찬가지로 조직들은 스스로 소유하고 있는 다크 데이터, 또는 좀 더 냉정하게 말해서 즉각적인 통제와 관리를 벗어난 클라우드에 저장돼 있는 그 자신, 고객, 활동에 관한 다크 데이터가 지속적인 비즈니스 건전성과 웰빙에 위험이 될 수 있음을 인지해야 한다.

이런 위험은 조사관이 자신에게 제공된 일련의 다크 데이터로부터 파악할 수도 있는 데이터의 종류와 품질에 달려 있다. 대부분의 조직들이 수집하는 데이터의 종류에 있어서 이런 위험에는 다음 중 일부 또는 전부가 포함될 수도 있다.

법률 및 규제 위험. 기밀, 재무 정보(신용카드 기타 계좌 데이터), 환자 기록 등 의무 또는 규정에 따르는 데이터가 다크 데이터 중에 있을 경우, 이 데이터가 유출됐을 때는 법률 및 재정적 책임이 따를 수 있다.

정보 위험. 다크 데이터에 비즈니스 활동, 경쟁우위, 중요 협력관계, JV(Joint Venture) 등 상표권이 등록되거나 민감한 데이터가 포함되어 있는 경우, 우연한 노출이 결과에 부정적인 영향을 끼치거나 중요한 비즈니스 활동과 관계를 망쳐버릴 수도 있다.

평판 위험. 모든 종류의 데이터 해킹은 피해를 입은 기관에 악영향을 끼친다. 다크 데이터도 다른 종류의 해킹들과 마찬가지로 (특히 다른 위험의 측면에서) 예외는 아니다.

기회 비용. 조직이 다크 데이터의 분석과 마이닝에 투자하지 않기로 결정한 상황에서 그 가치를 활용하려는 제 3자의 결연한 노력은 지식과 그 콘텐츠에 기반한 가치의 잠재적인 손실을 의미할 수 있다.

제한 없는 노출. 다크 데이터는 마이닝을 위해 추출하기 어렵거나 비용이 높거나 알려지지 않은 (그래서 평가되지 않은) 정보의 출처와 손실, 또는 피해 기업의 정보를 포함한다. 다크 데이터의 매우 비밀스럽고 실제로 손해를 끼칠 수 있지만 확실히 알 수 있는 방법은 없다. 이런 위험을 전적으로 심각하게 고려하는 사람들에게는 만족감이나 무관심 중 그 어느 것도 불러 일으킬 수 없다.

다크 데이터가 상당하면서 영향력이 있을 수 있는 위험을 야기하는 경우, 조직이 이런 위험을 관리하기 위해 무엇을 할 수 있을까? 이미 밝혀진 것처럼 이런 알려진 또는 알려지지 않은 위험에 대한 일정 수준의 보호를 제공할 수 있는 다양하면서 유용한 전략과 기술이 존재한다.

지속적인 목록 작성과 평가. 다크 데이터가 있음을 인지하고 주기적으로 점검해야 한다. 또한 이런 데이터에서 가치를 추출하는데 도움이 되는 새로운 툴과 기술에 대한 지속적인 연구가 필요하다. 어제의 다크 데이터가 새로운 툴이나 분석 기법 덕분에 빛나는 통찰력의 원천이 될 수 있다. 누군가는 이런 것에 관심을 두고 비용보다 사용으로 인한 편익이 클 때 사용할 수 있는 준비가 되어 있어야 한다. 또한 주기적인 목록 작성을 위해서는 다크 데이터의 위치, 저장 방식, 보호 방식, 보안 유지를 위한 접근 제한의 종류 등을 파악해야 한다.

암호화의 보편화. 잠재적인 가치와 위험이 있는 디지털 자산은 조직의 영역과 장비 또는 기타 클라우드 등에 반드시 암호화 된 형태로 보관해야 한다. 그 어떤 상황에서도 일반적인 조사로 바로 접근할 수 있는 다크 데이터가 없어야 한다. 강력한 암호화는 콘텐츠의 잠금을 해제하기 위해 다크 데이터를 확보할 수 있는 사람들에게 매우 어려워야 하며, 강력한 접속 제어와 모니터링은 목적에 상관 없이 이런 정보에 접근할 수 있는 사람을 명확히 규정해야 한다.

보존 정책과 안전한 처리. 콘텐츠 단독으로 또는 콘텐츠와 미디어 모두를 반드시 처리해야 하는지 여부에 따라 다크 데이터의 적절한 보존 또는 처리 방법, 국방부에서 승인한 삭제나 폐기 방법 등을 고려할 필요가 있다. IT부서와 경영진은 조직의 부서 등과 협력하여 다크 데이터의 보존 여부와 보안을 유지하고 위험을 관리하는 최선의 방법 등에 관해 결정해야 한다. 신중하게 고려한 데이터 보존 정책은 이런 의사결정에 도움이 되기 때문에 수립, 공표, 유지돼야 한다.

보안을 위한 다크 데이터 감사. 기업 규모에 관계없이 대부분의 회사들은 주기적으로 보안 감사를 통해 위험, 노출, 사건 대응, 정책 등을 평가한다. 다크 데이터는 이런 과정에 포함시켜 충분히 자주 검토함으로써 노출의 위험뿐만이 아니라 잠재적인 손실 또는 피해를 관리해야 한다.

그렇게 되면 아마도 위험 수위가 낮아질 수 있지 않을까?
잠재적인 가치와 발생 가능한 위험을 적절하게 평가해 조직은 다크 데이터로 균형을 유지할 수 있다. 하지만 주어진 것만을 쌓아두고 위험과 노출 관리에 대한 냉정하고 엄격한 접근방식을 취함으로써 조직은 다크 데이터를 묶어 둘 수 있다.

다크 데이터를 파헤치고 잠재적인 가치가 위험보다 큰 것들을 유지하며 위험이 잠재적인 수익보다 큰 것을 삭제함으로써 조직은 미래에 도움이 될 정보를 선제적으로 보존하면서 미래의 생산성 또는 수익성에 독이 될 수 있는 것을 폐기할 수 있을 것이다.

*Ed Tittel은 자유기고가다. dl-ciokorea@foundryco.com

Ed Tittel

Ed Tittel has been working in and around IT for over 30 years. Though he’s been working with and writing about Windows since the early 1980s, he has been a Windows Insider MVP since 2018 and earned MVP (Windows) in 2024. The author of more than 100 computing books, Ed is perhaps best known for his Exam Cram series of certification prep books and his half-dozen or so …For Dummies titles (including HTML For Dummies, now in a 14th edition). These days, Ed writes regularly for Computerworld, Tom's Hardware, and AskWoody.com. Since 2009, Ed has also opined and testified as an expert witness in over 60 patent suits, mostly on web development and markup language topics. To learn more about Ed, visit his website at edtittel.com, where you'll also find his daily Windows blog.

이 저자의 추가 콘텐츠