IT 리더는 단일 장애점(SPOF)을 피할 방법을 모색하고 있으며, 일명 ‘죽음의 블루스크린’ 사고를 막기 위해 클라우드 전략을 재평가하고 있다.
최근 크라우드스트라이크 소프트웨어 결함으로 전 세계 윈도우 시스템이 중단되면서 IT 커뮤니티는 큰 충격에 휩싸였다. 특히 이번 사고는 클라우드에서 단일 벤더에 지나치게 의존할 경우 내재된 위험이 얼마나 큰지를 일깨웠다. 다시 말해 IT 시스템이 다운되고 ‘죽음의 블루스크린(BSOD)’으로 뒤덮인 크라우드스트라이크발 사태가 클라우드에 의존하는 인프라의 취약성을 드러냈다는 평가다.
이 문제가 해결되는 과정에서, 주요 보안 구성 요소에 장애가 발생하면 치명적인 결과를 초래할 수 있다는 사실이 부각됐다. CIO는 이제 클라우드 환경의 회복 탄력성에 의문을 제기하고 대체 전략을 모색해야 하는 상황에 놓였다.
클라우드 종속성 재평가
인도 최대 케이블 TV 업체인 디시TV(DishTV)의 CIO 아비셰크 굽타는 “이 정도로 거대한 규모의 문제가 혼란을 야기할 때는 현재 아키텍처에 도달하는 데 들어간 결정, 신뢰, 절충안을 다시 검토하는 것이 중요하다. 검토 후 여전히 같은 결정을 내릴 수도 있겠지만 재검토는 필요하다”라고 언급했다. 그에 따르면 이번 사고 이후 디시TV도 단계적으로 클라우드 전략을 재평가하고 있다.
한편 금융 서비스 기업인 슈리파이낸셜(Shree Financials)의 CIO 샤샨크 자인은 전략적 전환을 제안했다. 그는 “조직과 CISO는 클라우드 전략을 검토해야 하며, 패치의 자동 업데이트를 권장하지 않아야 한다. 모든 패치는 먼저 테스트 서버에서 테스트해야 한다”라고 말하면서, 크라우드스트라이크의 명성에도 불구하고 테스트되지 않은 패치로 인한 신뢰의 실패가 이번 사고의 연쇄적 효과를 일으켰다고 진단했다.
TMF 그룹의 사이버 방어, IAM 및 애플리케이션 보안 담당 이사인 사우라브 구그나니의 경우 클라우드 전략에 대한 다양한 접근 방식을 통해 리스크를 완화할 수 있다고 조언했다. 그는 “기업은 클라우드 전략을 재검토하고 사용 가능한 모든 솔루션을 혼합해야 한다”라고 말했다.
하지만 이러한 도약을 이미 시작한 조직은 많지 않은 상황이다.
사고 피해를 입은 마이텍 이노베이션(Mytek Innovations)의 설립자 겸 CMD인 시브쿠마르 보라데는 “주요 운영에 영향을 미치는 중단에 대응해 비즈니스 연속성 계획을 선제적으로 업데이트했다. 예상치 못한 다운타임을 해결하고 생산성 및 서비스 제공에 미치는 영향을 최소화하기 위해서다. 수정된 계획에는 모든 직원이 잠재적인 문제와 그 해결 방법을 이해할 수 있도록 여러 계층으로 구성된 커뮤니케이션 관리를 포함했다”라고 언급했다.
보라데에 따르면 마이텍은 아웃룩, 팀즈, 셰어포인트를 비롯한 전체 네트워크가 마이크로소프트365에서 호스팅되기 때문에 사고 당시에 내부 커뮤니케이션도 중단됐다.
보라데는 “자체 호스팅 인프라를 사용하는 고대디(GoDaddy) 덕분에 사내에서 개발한 애플리케이션은 영향받지 않았다. 하지만 애저 플랫폼에 연결된 몇 가지 API 통합에 문제가 발생해 하루 종일 작동하지 않았다. 이로 인해 고객과 사용자 모두에게 서비스가 중단됐다”라고 말했다.
CIO가 가져야 할 경각심
현재 CIO의 주요 관심사는 벤더 종속이다. 크라우드스트라이크 사태에서 드러났듯 클라우드 벤더 한 곳에 의존하면 단일 장애점이 발생될 수 있다. 즉 해당 벤더의 주요 서비스가 중단될 경우 조직에는 광범위한 영향이 미칠 수 있다. 이런 리스크를 완화하기 위해 CIO는 여러 플랫폼에 워크로드를 분산하는 멀티클라우드 또는 하이브리드 클라우드 아키텍처를 모색할 가능성이 높다.
한편 포레스터의 수석 애널리스트인 앨리 멜렌은 사이버 위협 상황에서 신뢰할 수 있는 도구와 서비스의 중요성을 강조했다. 그는 “사이버 보안팀이 사용하는 도구와 서비스의 신뢰성은 매우 중요하다. 이번과 같은 사고는 그 신뢰성에 의문을 제기했다. 특히 사이버 보안 소프트웨어처럼 일상 업무에 통합된 기술을 통해 기업 시스템의 신뢰성을 보장하는 방법을 두고 경영진의 우려가 더 커질 수 있을 것”이라고 지적했다.
이번 사고는 단일 장애점이 조직 전체에 연쇄적인 영향을 미칠 수 있다는, 클라우드 의존형 시스템의 취약성을 드러냈다. 비글시큐리티의 수석 보안 전문가이자 고문인 수닐 바키는 “이제 클라우드와 보안 벤더 간의 신뢰에 의문이 제기되고 있다. 신뢰의 붕괴로 인해 기존 에이전트와 관련된 취약점 없이 보안을 강화할 수 있는 에이전트리스 솔루션에 대한 관심도 높아질 것으로 보인다”라고 진단했다.
피해 규모를 고려할 때 이번 사고는 최악의 사이버 보안 사고 중 하나로 꼽힌다. 항공사, 은행, 리테일, 증권사, 미디어 회사, 철도 등 마이크로소프트 윈도우를 쓰는 수많은 분야의 컴퓨터가 영향을 받았다. 특히 여행 업계에 큰 영향을 끼쳤는데, 독일, 프랑스, 네덜란드, 영국, 미국, 호주, 중국, 일본, 인도, 싱가포르, 대만의 항공사와 공항에서 체크인 및 발권 시스템에 심각한 문제가 발생해 항공편이 지연되고 공항 혼란이 초래됐다.
MS는 약 850만 대의 윈도우 컴퓨터가 영향을 받았다고 밝혔다. 그 영향력은 스페이스X 및 테슬라 CEO 일론 머스크가 사내의 모든 시스템에서 크라우드스트라이크를 삭제했을 정도였다.
리스크 관리 관행의 강화
이번 사고를 계기로 리스크 관리 관행을 개선할 필요성도 강조되고 있다. 이제 실사를 강화하고, 업데이트를 엄격하게 테스트하며, 단계적으로 배포하는 관행이 매우 중요해진 것이다.
RAH인포테크의 CTO인 가우라브 라나드는 “업계 전반에 걸쳐 사이버 보안 관행에 대한 지속적인 적응과 개선의 필요성을 강조하고 경각심을 불러일으키는 계기가 됐다”라고 말했다.
한편 라쿠텐 심포니의 수석 아키텍트인 D.R. 고얄은 “전체 커뮤니티와 사용자층에 배포하기 전에 특정 조직과 특정 사용자를 대상으로 테스트해 영향을 줄일 수 있는 메커니즘이 있어야 한다”라고 조언했다.
또한 디지털 환경이 진화하면서 클라우드 기반 시스템의 회복 탄력성을 확보하는 것도 무엇보다 중요해지고 있다. 아이디어 글로벌 이노베이션(An Idea Global Innovations)의 설립자인 아시스 구하는 더 광범위한 영향을 언급하며 “이번 사고는 글로벌 경제에 더 넓은 영향을 미칠 수 있다. 다운타임과 복구 시간이 길어지면 생산성과 경제에 영향을 미칠 것”이라고 지적했다.
전문가들은 단계적 배포, 종합 테스트, 강력한 백업 시스템 구축 등 향후 대비를 위한 몇 가지 전략을 권장했다.
먼저 블록체인 기업 킬라(Qila)의 공동 설립자인 시다스 우그란카는 “크라우드스트라이크가 업데이트를 단계적으로 배포했다면 그 영향은 훨씬 적었을 것”이라며 업데이트를 순차적으로 배포하고 철저한 테스트를 거쳐 영향을 완화해야 한다고 지적했다.
누베프로(Nuvepro)의 CTO인 모유크 고스와미는 크라우드스트라이크 업데이트 사고와 유사한 문제를 방지하려는 기업이라면 다양한 환경에서 테스트 프로토콜을 강화하고, 엄격한 위험 평가를 구현하고, 강력한 거버넌스 프레임워크로 변화 관리 프로세스를 보강해 철저히 업데이트를 관리해야 한다고 조언했다.
고스와미는 “모니터링 기능을 강화하고, 장애 업데이트에 맞춰 사고 대응 계획을 개선하며, 사전 예방적인 벤더 관계를 구축하는 것이 중요하다”라고 덧붙였다.
전문가들은 이번 사고가 CIO로 하여금 클라우드 전략을 재검토하고 강화할 필요성을 강조한다고 입을 모았다. 조직은 강력한 리스크 관리 관행을 구현하고, 보안 조치를 강화하고, 클라우드 솔루션을 다양화해 미래의 중단으로부터 스스로를 보호해야 한다.
업계가 이번 사태의 의미를 고민하는 가운데, 점점 더 복잡해지는 디지털 환경에 적응하기 위해서는 탄력적이고 적응력이 뛰어나며 충분한 테스트를 거친 클라우드 전략을 구축하는 데 초점을 맞춰야 한다.dl-ciokorea@foundryco.com