IT 리더들이 크라우드스트라이크 사태 이후 그 시사점과 현장 작업 및 대응 계획 과정을 논의했다.
마이크 마이니에로는 지난 달 19일 새벽 2시쯤 사고 대응팀의 연락을 받고 잠에서 깼다. 가톨릭헬스(Catholic Health)의 영상의학 벤더 중 한 곳이 기술적 문제를 겪으면서 IT 시스템과 파트너 시스템도 잇달아 다운됐다는 전화였다.
약 1만 6,000명의 직원을 보유한 가톨릭헬스의 의료 시스템은 급성 치료 병원 6곳, 요양원 3곳을 비롯해 가정 의료 서비스, 호스피스 및 의사 진료 네트워크를 지원하고 있다. 가톨릭헬스의 수석 부사장 겸 CDIO인 마이니에로는 사이버 보안 및 기타 사고에 대한 지휘 센터를 구축하기 위해 IT 직원을 모으고 환자 분류팀을 구성했다고 말했다.
그는 “즉시 팀을 소집해 먼저 무슨 일이 일어났는지 파악한 뒤 환자 분류, 커뮤니케이션, 완화를 시도해야 했다. 병원에서는 사람의 생사가 걸려 있는 문제다”라며 이번 사태가 중대 사고라는 점을 관계자들이 빠르게 깨달았다고 설명했다.
마이니에로와 마찬가지로 이날 많은 CIO가 크라우드스트라이크의 소프트웨어 업데이트 오류로 인해 조직 시스템이 중단됐다는 소식에 깜짝 놀랐다. 마이크로소프트 윈도우 운영 체제를 쓰는 전 세계 수백만 대의 컴퓨터가 다운되고 ‘죽음의 블루 스크린’이 나타난 것이었다.
마이니에로는 사고를 인식한 직후 최고 경영진에게 메시지로 상황을 알리고 지휘 센터가 가동된다는 소식을 전했다. 그는 크라우드스트라이크로부터 수백 대의 서버에 수동으로 적용해야 했던 문제를 해결하는 정보 알림을 받았다고 전하며, 이후 환자 치료 환경의 데스크톱을 수정했다고 설명했다.
지휘 센터는 모든 의료 시스템 시설의 운영 책임자에게 접점 업데이트를 배포했다. 마이니에로는 “이 문제를 완화할 수 있었기 때문에 수술이나 진료를 취소할 필요가 없었다”라고 언급했다. 그에 따르면 의료 시설에서 직원들이 종이에 메모를 하며 환자들에게 진료를 제공했고, 중요한 문제는 그날 오후 5시쯤 완화됐다.
마이니에로는 만약 문제가 낮에 발생했다면 그 영향은 더 컸을 것이라고 언급했다. 그는 “병원 환경에서는 환자를 다른 환경으로 옮기기 어려운데, 이 문제를 피할 수 있었다. 최종 사용자에게는 분명 영향을 미쳤지만 환자에게는 영향을 미치지 않았다. 신속한 대응 덕에 피해를 최소화할 수 있었다”라고 말했다.
총력 대응
모든 상황이 생명을 위협하지는 않았지만 전 세계 조직에서 가톨릭헬스와 유사한 시나리오가 발생했다. 많은 CIO가 미리 대비하고, 재해 복구 및 비즈니스 연속성 계획을 수립하고, 이해관계자와 지속적으로 소통해 영향을 줄일 수 있었다.
미국 공인회계 기업인 보나디오 그룹(The Bonadio Group)의 CIO 존 로먼은 전체 1,100대 중 약 300대가 영향을 받았다고 추정하며 “3시간 이내에 모든 서버를 가동하고 당일 오후까지 모든 노트북을 정상화할 수 있었다”라고 말했다. 그는 “사고 대응 계획을 실행했기 때문에 이렇게 할 수 있었다. 대부분의 사고 대응 계획은 특정 유형의 멀웨어 인시던트가 발생했을 때 마련된다. 보나디오 그룹은 전 세계적인 팬데믹을 포함해 모든 유형의 사고를 고려할 수 있도록 일반화했다”라고 설명했다.
사고 대응 계획이 실행된 후, 2번째 단계는 IT부서의 모든 직원에게 문제를 해결하기 위해 크라우드스트라이크가 만든 스크립트를 구현하도록 요청하는 것이었다. 또한 회사 전체의 문자 서비스, 인트라넷 포털, 이메일을 통해 회사의 리더 및 모든 직원과 지속적으로 소통했다고 로먼은 말했다.
마이니에로처럼 로먼도 사고 시점 때문에 영향을 줄일 수 있었다. 그는 “회계 기업에서 일 년 중 가장 바쁜 시기는 세금 시즌이다. 3월에 이런 일이 발생했다면 세무 서비스가 멈춰 비즈니스에 큰 타격이 있었겠지만, 그나마 다행으로 한여름에 사고가 발생해 신속하게 문제를 해결할 수 있었다. 비즈니스에 미치는 영향은 미미했다”라고 회고했다.
반면 스테이블 코인 2.0 생태계 관리 기업인 블랙월렛(Black Wallet)에서는 사고의 영향이 더 컸다. CIO 레미 알리는 “이번 사태는 매우 힘든 경험이었다. 서비스 중단이 몇 시간 지속되는 동안 중요 보안 기능에 액세스할 수 없었고 서버와 노트북에 모두 영향을 미쳤다”라고 말했다.
알리는 크라우드스트라이크 서비스에 액세스할 수 없었기 때문에 “잠재적인 위협을 효과적으로 모니터링하고 대응할 수 없었고, 전반적인 보안 태세에 대한 우려가 높아졌다”라며 “시스템의 무결성을 유지하면서 서비스 중단으로 인한 제한 사항을 해결해야 했기 때문에 긴장되고 힘든 시간이었다”라고 언급했다.
침착함 유지가 관건
알리가 제일 먼저 한 일은 사고 대응팀을 소집해 상황을 평가하고 즉각적인 대응 계획을 수립하는 것이었다. 그는 “서비스 중단의 영향을 해결하는 동안 비즈니스 연속성을 유지하도록 해야 했다”라고 말했다.
이 과정에서 커뮤니케이션은 매우 중요했다. 알리는 경영진과 이해관계자에게 상황과 IT가 취하고 있는 조치에 대한 정보를 정기적으로 업데이트했다. 그는 “이런 상황에서는 당황하기 쉽지만, 투명하고 침착한 태도를 유지하도록 집중한 덕분에 팀이 중심을 잡을 수 있었다”라고 말했다.
또한 그는 “중요한 보안 인사이트에 액세스할 수 없어 일시적으로 위험에 처하기도 했지만, 더 중요한 문제는 전반적인 보안 태세의 취약점을 부각시켰다는 점이었다. 보안 프로토콜 중 일부를 신속하게 전환하고 다른 조치에 의존해야 했으며, 이를 통해 강력한 백업 계획과 이중화 체계를 갖추는 것이 얼마나 중요한지 다시 한번 깨달았다”라고 설명했다.
마이니에로도 이런 상황에서는 “리더가 당황하면 팀원들도 당황할 수밖에 없다”라고 말했다. 그는 훈련을 통해 절대 목소리를 높이면 안 된다는 것을 배웠다고 언급하면서 “명령과 통제를 겸비한 어조가 중요하다. 단호할 수도 있지만 항상 친절해야 한다. 사람들에게 영감을 주는 것이 중요하기 때문에 명령조로 대하지 않아야 한다. 그러면 사람들은 본질적으로 그 이상을 해줄 것”이라고 설명했다.
교훈 및 시사점
미지급금 소프트웨어 제공업체인 아비드익스체인지(AvidXchange)는 서비스 중단으로 인해 고객 대면 제품 포트폴리오의 일부가 영향을 받았다. 하지만 CIO인 안젤릭 깁슨은 IT부서가 24시간 내에 서비스를 완전히 복구할 수 있었다고 말했다. 그는 “과도하게 준비”하며 가동 중단에 대비한 시나리오 계획을 수립한 덕분이라고 언급했다.
깁슨은 “비즈니스 중단 계획에 따라 행동했다. 사전 준비를 위한 조치를 취하고 적절한 커뮤니케이션 채널을 마련해 내부적으로 시스템을 다시 가동하기 위해 노력하는 동안 필요한 모든 당사자와 신속하고 효과적으로 소통할 수 있었다”라고 설명했다.
깁슨은 CIO가 공개적으로 자주 소통해야 할 뿐만 아니라 플레이북에 대한 자신감을 보여주고 안심시켜야 하며, 가용성을 확보하고 리소스를 동원해 IT가 신속하게 대응할 수 있도록 준비해야 한다고 말했다.
가톨릭헬스의 마이니에로는 소집자 목록과 제목 및 텍스트를 미리 작성할 수 있는 플랫폼을 통해 커뮤니케이션 계획을 구축하는 것이 중요하다고 강조했다. 마찬가지로 팀 소집을 ‘자동화’하는 시스템 구축도 중요하다.
그는 또한 벤더 연락처를 항상 준비할 것을 권장했다. 가톨릭헬스가 크라우드스트라이크와 직접 거래하긴 했지만, 수백 개의 벤더와 협력하고 있다는 점을 고려할 때 서비스 중단의 영향을 받은 모든 사람에게 알리는 것이 중요했다고 마이니에로는 언급했다.
보나디오 그룹의 로먼은 조직의 사고 대응 계획이 랜섬웨어나 멀웨어 공격뿐만 아니라 모든 주요 사고를 대비해야 한다고 말했다. 또한 계획 수립만으로는 충분치 않으며 이를 연습해야 한다고 설명했다. 로먼은 “매년 모의 훈련을 실시하고 이를 바탕으로 사고 대응 계획을 업데이트하고 있다”라고 전했다.
IT 부서의 규모에 따라 회사 전체에 장애가 발생할 경우 모든 인력이 투입돼야 한다. 로먼은 “그런 다음 소통하고 또 소통해야 한다. 사람들은 장애가 발생하면 무슨 일이 일어나고 있는지 알고 싶어 한다. 나도 마찬가지다. 여행을 많이 다니는데, 가장 짜증나는 상황은 항공편이 취소됐음에도 불구하고 이유를 모를 때다. 하지만 이유를 알면 기분이 좋지는 않더라도 조금 나아질 수 있다”라고 말했다.
블랙월렛의 앨리는 이번 사태를 통해 몇 가지 중요한 교훈을 얻었다. 첫 번째는 ‘예상치 못한 상황에 대비해야 한다’라는 것이었다. 그는 “아무리 신뢰할 수 있는 벤더라 할지라도 항상 비상 계획을 세워야 한다. 벤더 중단을 포함한 여러 시나리오에 대한 사고 대응 프로토콜을 테스트하는 것이 우선 순위가 됐다”라고 말했다.
두 번째는 IT 부서뿐만 아니라 조직 전체에 걸쳐 내부 커뮤니케이션을 강화하는 것이다. 이를 통해 공황 사태를 완화하고 모든 사람이 같은 정보를 공유할 수 있다. 앨리는 서비스 중단을 계기로 “크라우드스트라이크뿐만 아니라 모든 벤더에 대한 의존도를 이해해 이런 관계를 보다 적극적으로 관리하고 리스크 평가를 개선할 수 있었다”라고 말했다.
또한 그에 따르면 블랙월렛은 조직 내에서 강력한 사이버 위생 관행을 구축해야 할 필요성을 절감했다. 앨리는 피해 복구 후 “무엇이 잘못됐는지뿐만 아니라 어떻게 대응했는지 분석하기 위해 철저한 사후 조사를 실시했다. 이런 반성적 관행이 앞으로 프로세스를 개선하는 데 유용할 것”이라고 언급했다.
그는 전반적으로 크라우드스트라이크발 사태가 힘든 경험이었지만 사이버 보안에 대한 접근 방식에서 회복 탄력성과 적응력의 중요성을 일깨웠다고 회고했다. 그는 “복구 프로세스에는 기술적 수정뿐만 아니라 보안 및 리스크 관리에 대한 조직 문화 강화도 포함됐다”라고 덧붙였다.
로열티 유지
로먼과 마이니에로는 이번 서비스 중단이 크라우드스트라이크와의 관계에 영향을 미치지 않을 것이라고 말했다.
크라우드스트라이크가 이번 사태로 비판을 받긴 했지만, 마이니에로는 “놀라운 회사이며, 우리는 그 엔지니어링 문화를 높이 평가한다. 실수를 한 것이다”라고 말했다. 그는 의료 시스템이 어떤 상황에도 대비할 수 있어야 한다고 덧붙였다.
그는 크라우드스트라이크가 업계에서 독과점을 하고 있다는 비난을 받는다고 언급하며 이번 사태가 품질 보증 문제였다고 말했다. 그는 시스템과 통합이 점점 더 정교해지고 복잡해지기 때문에 업계가 함께 모여 품질 보증을 처리하는 방법을 논의할 것을 제안했다.
로먼은 “우리 모두 인간이며 실수를 한다. 크라우드스트라이크를 포기하겠다는 태도라면 결국 다른 클라우드 기반 벤더에도 마찬가지일 것이다. 지금까지 크라우드스트라이크는 잘 작동했고 바이러스와 멀웨어 발생을 예방해 왔으며 지원도 훌륭했다. 앞으로도 관계를 유지할 것이다”라고 말했다. dl-ciokorea@foundryco.com