인공지능과 머신러닝은 많은 이점을 제공한다. 하지만 동시에 새로운 취약점을 가져오기도 한다. 이러한 위험을 최소화할 방법을 살펴본다.
신기술을 도입할 때 보안을 뒷전으로 미루는 경우가 많다. 새로운 제품이나 서비스를 최대한 빠르게, 그리고 저렴하게 선보이는 게 더 중요하다고 판단해서다. 게다가 ‘완벽한 보안’은 시간이 오래 걸리고 비용도 많이 든다.
인공지능(AI)과 머신러닝(ML) 역시 보안 취약점이 있다. 이전의 기술 발전과 유사한 취약점과 설정 오류를 보이기도 하고, 이들만의 고유한 보안 위험이 있기도 하다.
만약 AI 중심 디지털 트랜스포메이션을 추진한다면 기업은 이러한 위험을 직면하게 될 가능성이 크다. 美 IT 컨설팅 회사 부즈 앨런 해밀턴(Booz Allen Hamilton)의 수석 과학자 에드워드 라프는 “서둘러선 안 되는 영역이다”라고 말했다.
AI와 ML은 다른 기술보다 더 많고 복잡한 데이터도 필요하다. 따라서 수학자와 데이터 과학자들이 개발한 알고리즘은 학문적인 연구 프로젝트에서 시작되는 경우가 많다. 라프는 “최근에서야 연구진들은 AI에 보안 문제가 있다는 것을 알게 됐다”라고 언급했다.
아울러 이들의 용량 및 처리 요건은 또 다른 수준의 복잡성과 취약점을 추가한다. 클라우드 플랫폼이 워크로드를 처리하는 경우가 많기 때문이다. 정리하자면, AI 도입에 있어 사이버보안이 가장 우려되는 위험인 것은 당연하다.
2020년 7월 발표된 딜로이트(Deloitte)의 한 보고서에 따르면 AI를 도입한 기업 가운데 62%가 사이버보안 위험을 가장 큰 혹은 주요 위험으로 보고 있지만, 이 위험을 해결할 준비가 됐다고 답한 기업은 39%에 불과했다.
이 문제를 더욱더 복잡하게 만드는 것은 사이버보안 자체에서 AI가 많이 사용된다는 점이다. 따라서 AI 경험이 풍부해질수록 기업들은 사이버보안 위험을 더 걱정한다고 딜로이트의 기술, 미디어, 통신 부문 전무이사 제프 룩스는 전했다.
하지만 그에 따르면 AI 경험이 풍부해지더라도 모든 AI 및 ML 프로젝트 인벤토리 전체를 보호하거나 감사 및 테스트를 수행하는 등의 기본적인 보안 관행을 따르지 않는다. 룩스는 “현재 대부분 기업이 보안을 제대로 구현하지 못하고 있다”라고 지적했다.
AI와 ML 데이터로 인해 초래되는 위험
AI와 ML 시스템은 다음과 같은 3가지 데이터세트가 필요하다.
• 예측 모델을 구축하기 위한 학습 데이터(Training data)
• 모델이 얼마나 잘 작동하는지 평가하기 위한 테스트 데이터(Testing data)
• 모델이 작동할 때 발생하는 실시간 트랜잭션 또는 운영 데이터(Live transactional or operational data)
여기서 실시간 트랜잭션 또는 운영 데이터는 분명히 중요한 기업 자산으로 취급되겠지만 민감한 정보가 포함돼 있는 학습 및 테스트 데이터는 간과하기 쉬운 부분이다.
익명화, 토큰화, 암호화 등 다른 시스템의 데이터를 보호하는 데 사용되는 많은 보안 원칙이 AI 및 ML 프로젝트에도 적용될 수 있다. 물론 데이터 자체가 필요한지 가장 먼저 자문해야 한다. AI와 ML 프로젝트를 시작할 때 가능한 모든 데이터를 수집한 다음, 이것으로 무엇을 할 수 있을지 보려는 경향이 있기 때문이다.
비즈니스 결과에 초점을 맞추면 필요한 데이터를 파악하는 데 도움이 된다. 교육기관용 애널리틱스 솔루션 제공업체 오소트(Othot)의 CTO 존 아바티코는 “오소트의 경우 데이터를 다룰 때 민감한 개인식별정보(Personally Identifiable Information, PII)가 필요하지 않으며, 이것이 팀에 제공되는 데이터에 포함되지 않는다고 명확하게 밝힌다”라고 말했다.
실수가 발생할 순 있다. 사용자가 실수로 한국의 주민등록번호와 같은 미국 사회보장번호(SSN) 등의 민감한 개인정보를 입력하는 경우를 예로 들 수 있겠다. 이 정보는 모델의 성능을 향상시키는 게 아니라 오히려 위험을 초래한다. 오소트는 이에 대응해 PII를 식별하고 모든 시스템에서 제거한 다음, 이를 고객에 알리는 절차가 있다고 덧붙였다.
또한 AI 시스템은 맥락 데이터를 필요로 하기 때문에 이로 인해 위험에 노출될 가능성이 커질 수도 있다. 한 보험사가 고객의 운전 습관을 더욱더 잘 파악하기 위해 고객 계정과 손쉽게 연계하고 매칭할 수 있는 데이터세트(예: 쇼핑, 운전, 위치 데이터 등)를 구매한다고 가정해보자. 이 새롭고 풍부한 데이터세트는 해커들의 집중 타깃이 되기 쉽고, 만약 유출된다면 브랜드 명성에 큰 타격을 입힐 것이다.
설계에 의한 AI 보안(AI security by design)
온라인 파일 공유 플랫폼 박스(Box)는 AI를 사용해 메타데이터를 추출하고 검색, 분류 등의 기능을 개선하고 있다.
박스의 CISO 라크슈미 한스팔은 “이를테면 계약 문서에서 약관, 갱신 일자, 가격 정보 등을 추출할 수 있다. 기존에는 콘텐츠 분류를 하지 않았거나 혹은 사용자가 알아서 분류해야 했다. 하지만 디지털 트랜스포메이션에 유용한 데이터 산더미에 앉아 있다는 사실을 알아야 한다. 만약 콘텐츠가 스스로 분류된다면 말이다”라고 전했다.
데이터 보호도 박스의 핵심 업무 가운데 하나다. 그는 동일한 데이터 보호 표준이 학습 데이터는 물론이고 AI 시스템에도 적용된다면서, “우리가 쌓고 판매하며 유지하는 게 바로 신뢰다. 그리고 이것이 제품 및 서비스에 덧붙여지는 게 아니라 통합돼야 한다고 생각한다”라고 언급했다.
다시 말해, 새로운 AI 프로젝트를 포함해 모든 시스템이 암호화, 로깅, 모니터링, 인증, 액세스 제어 등 핵심 데이터 보안 원칙을 기반으로 구축된다는 게 한스팔의 설명이다. 이어서 그는 “자사 플랫폼 자체에 디지털 신뢰가 내재돼 있다”라고 덧붙였다.
또한 한스팔에 따르면 박스는 기존 코드와 새로운 AI 및 ML 시스템을 지원하는 안전한 개발 프로세스를 갖추고 있다. 그는 “안전한 제품 개발을 위해 ISO 산업 표준을 준수한다. 시스템 개발 단계부터 보안을 고려해야 한다는 ‘설계에 의한 보안’ 원칙이 보장돼 있고, 침투 테스트와 레드팀 평가 등 점검 및 균형 조정 절차도 마련돼 있다. 이는 표준 프로세스이며 AI와 ML 프로젝트라고 이 프로세스가 달라지지 않는다”라고 설명했다.
하지만 수학자와 데이터 과학자는 일반적으로 AI 및 ML 알고리즘 코드를 작성할 때 잠재적인 취약점을 고려하지 않는다. 기업도 비슷한 상황이다. 이들은 AI 시스템을 구축할 때 오픈소스 알고리즘 혹은 상용 ‘블랙박스’ AI 시스템을 사용하거나 처음부터 자체 개발하기도 하는데, 오픈소스 코드의 경우 악성코드가 숨겨져 있거나 취약점 또는 취약한 의존성을 포함하고 있을 가능성이 있다. 상용 시스템이라 할지라도 오픈소스 코드나 기업 고객이 확인할 수 없는 새 코드를 사용한다.
주요 위협이 되는 전도 공격(Inversion Attack)
AI와 ML 시스템은 일반적으로 보안 엔지니어가 아닌 사람들이 만든 오픈소스 라이브러리와 새로 작성된 코드의 조합으로 구성된다. 안전한 AI 알고리즘 작성에 관한 표준 모범 사례도 없다. 게다가 보안 전문가도 부족하고, 데이터 과학자도 부족하기 때문에 두 분야를 모두 전문으로 하는 사람은 더 부족하기 마련이다.
AI 및 ML 알고리즘의 가장 큰 잠재적 위험 요소이자, 라프가 가장 우려하는 장기적인 위협은 전도 공격이다. 즉 학습 데이터가
공격자에게 유출되는 것이다. 그는 “모델 학습에 사용된 데이터를 추출하는 공격이 있다. 만약 어떤 모델이 PII 데이터를 학습했다면 이 민감한 데이터가 잠재적으로 노출될 수 있다는 뜻이다”라고 말했다.
이어서 라프는 “이 영역에 관한 연구가 활발히 진행 중이지만 아직 갈 길이 멀다. 이를테면 일부 도구는 전도 공격에서 학습 데이터를 보호할 수 있지만 너무 비싸다. 이를 막는 방법을 알아도 그렇게 하려면 모델 학습 비용이 100배나 증가한다. 과장하는 게 아니다. 말 그대로 100배 더 비싸고, 시간도 더 오래 걸리기 때문에 아무도 그렇게 하지 않는다”라고 덧붙였다.
‘설명할 수 없는 것’은 보호할 수 없다
AI 및 ML 알고리즘과 관련한 또 다른 연구 영역은 ‘설명가능성(explainability)’이다. 오늘날 주요 사이버보안 업체들이 제공하는 도구를 포함한 많은 AI와 ML 시스템은 이른바 ‘블랙박스’ 시스템이다.
사이버보안 전문 벤처캐피탈 YL벤처스(YL Ventures)의 CISO 수닐 유는 “사이버보안 업체들이 설명가능성을 지원하지 않고 있다”라면서, “보안에서는 어떤 일이 일어났는지 설명하는 게 기본적인 요소다. 설명할 수 없다면 어떻게 해결할 수 있을까?”라고 지적했다.
자체 AI 또는 ML 시스템을 구축한 기업이라면 문제가 발생했을 때 사용한 학습 데이터나 알고리즘을 검토해서 문제를 해결할 수 있다. 유는 “자체 구축한 게 아니라면 학습 데이터가 무엇이었는지 전혀 알 수 없다”라고 전했다.
단순한 알고리즘 보안 이상이 필요하다
AI 시스템은 단순한 자연어 처리(NLP) 엔진, 분류 알고리즘, 신경망 네트워크가 아니다. 이 부분들이 완벽하게 안전하더라도 시스템은 여전히 사용자 및 백엔드 플랫폼과 상호작용해야 하기 때문이다.
시스템이 강력한 인증과 최소 권한 원칙을 사용하는가? 백엔드 데이터베이스와의 연결이 안전한가? 서드파티 데이터 소스와의 연결은 어떠한가? 사용자 인터페이스가 주입 공격에 대응해 복원할 수 있는가?
사용자 상호작용과 관련된 위험 요소는 AI와 ML 프로젝트에 참여하는 데이터 과학자다. 아바티코는 “데이터 과학자가 괜히 과학자라고 불리는 게 아니다. 이들은 데이터로 실험을 진행해 인사이트를 도출하는 모델을 이끌어낸다. 하지만 데이터 보안 측면에서는 실험이 위험한 행동으로 이어질 수 있다”라고 언급했다.
이를테면 데이터를 안전하지 않은 위치로 이동시키거나, 더 이상 사용하지 않을 샘플 데이터세트를 삭제하는 경우다. 그에 따르면 오소트는 여기에 대비하고자 초창기부터 SOC(Service Orgamization Control) 2 인증을 받기 위해 투자해 왔다. 이는 데이터 이동 및 삭제와 관련해 전사적으로 강력한 데이터 보호 관행을 시행하는 데 도움이 된다.
데이터 애널리틱스 및 AI 라이프사이클 컨설팅 업체 어빈 AI(Urvin AI)의 제품 매니저이자 국제 비영리 보안 연구기관 인세콤(ISECOM)의 공동 설립자 피터 헤르조그는 “사실 대부분의 AI 모델에서 가장 큰 위험 요인은 AI에 있지 않다. 문제는 사람한테 있다. 사람이 학습 방법, 수집 데이터, 예측 대상 등을 결정하기 때문에 보안 문제가 없는 AI 모델은 있을 수 없다”라고 설명했다.
AI와 ML 시스템에서만 나타나는 또 다른 보안 위험은 ‘데이터 포이즈닝(data poisoning)’이다. 이는 공격자가 AI 및 ML 시스템에 잘못된 데이터를 주입해 잘못된 혹은 부정확한 예측을 하도록 하는 것이다.
라프는 대부분의 기업이 가장 우려하는 문제라고 진단했다. 그는 “실제로 공격당하고 있는 AI 시스템은 없다고 알고 있다. 앞으로는 실질적인 위협이 되겠지만 아직은 공격자들이 바이러스 백신을 피하고자 사용하는 도구가 여전히 효과적이라고 본 탓인지 더 복잡해지진 않았다”라고 말했다.
편향(bias)과 모델 드리프트(Model Drift) 방지하기
사용자 행동 분석, 네트워크 트래픽 모니터링, 데이터 유출 확인 등 엔터프라이즈 보안에 AI와 ML 시스템을 사용할 때 편향과 모델 드리프트가 잠재적인 위험을 초래할 수 있다.
특히, AI가 보안에 더 많이 쓰이면서 특정 공격을 적게 표시하거나 오래된 학습 데이터세트는 조직을 취약하게 만들 수 있다. 라프는 “지속적으로 모델을 업데이트해야 한다”라고 권고했다.
때에 따라 학습이 자동으로 이뤄질 수도 있다. 예를 들면 변화하는 날씨 패턴이나 공급망 배송 일정 등에 모델을 적용하면 시간이 지나면서 신뢰성을 높일 수 있다. 물론 정보 출처가 악의적인 행위자와 관련될 수 있기 때문에 학습 데이터세트를 신중하게 관리해 데이터 포이즈닝 및 조작을 방지해야 한다.
한편 기업들은 얼굴인식 또는 채용 플랫폼이 여성이나 소수자를 차별하는 등 이미 윤리 문제를 일으키는 알고리즘 문제를 다루고 있다. 알고리즘에 편향이 발생하면 작게는 컴플라이언스 문제가 발생하는 데 그칠 수도 있지만, 심하게는 자율주행차 및 의료 애플리케이션의 경우 사람을 죽일 수도 있다.
그러나 알고리즘에 편향이 주입될 수 있는 것처럼, 반대로 이는 편향 제어에도 활용될 수 있다. 아바티코는 적절한 제약 조건 없이 모델을 생성하면 편향이 쉽게 생길 수 있다면서, “편향을 해결하려면 성실해야 한다. 다양성과 관련된 목표를 추가하면 모델링이 이를 이해하고, 그렇지 않은 경우 쉽게 생겨버릴 수도 있는 편향을 방지하는 데 도움이 될 수 있다”라고 말했다.
AI의 미래가 마냥 밝지만은 않다
AI와 ML 시스템은 많은 데이터, 복잡한 알고리즘, 필요할 때 확장할 수 있는 강력한 프로세서가 필요하다. 주요 클라우드 업체들은 모든 것을 한 곳에서 편리하게 지원하는 데이터 과학 플랫폼을 제공하려고 하고 있다.
즉, 데이터 과학자들은 IT에서 서버를 프로비저닝 해줄 때까지 기다릴 필요가 없다는 뜻이다. 온라인에 접속해 몇 가지 서식만 작성하면 시작할 수 있다. 딜로이트의 한 AI 관련 보고서에 따르면 93%의 기업이 클라우드 기반 AI를 사용하고 있다. 룩스는 “시작하기가 더 쉬워졌다”라고 덧붙였다.
하지만 이런 프로젝트가 운영 시스템으로 바뀌고 확장되면서 구성 문제가 크게 증가한다. 최신 서비스가 중앙화된 자동 구성과 보안 관리 대시보드를 제공하지 않을 수 있으며, 기업들은 자체적으로 개발하거나 서비스 제공업체가 해당 기능을 제공할 때까지 기다려야 한다.
이는 해당 시스템을 사용하는 사람이 보안 지식에 전무한 시민 데이터 과학자나 이론 연구자일 때 문제가 될 수 있다. 또 제공업체들이 새로운 기능을 먼저 출시한 다음에서야 보안을 챙기기 때문에 시스템이 빠르게 구축되고 더 빠르게 확장될 때 문제가 발생할 수 있다. IoT 장치, 클라우드 스토리지, 컨테이너에서 이미 경험했던 바다.
AI 플랫폼 공급업체들은 이 위협을 인지하고 시작했으며, 실수로부터 교훈을 얻었다고 라프는 전했다. 그는 “이전과 달리 더 적극적으로 보안을 포함하는 계획이 등장하고 있다. ML 커뮤니티가 보안 문제를 더욱더 우려하고 있기 때문에 이 간극이 지연되는 시간은 더 짧아질 것”이라고 설명했다.
딜로이트의 AI 전략 부문 공동 리더 어판 사이프도 대기업 AI 워크로드를 지원하는 주요 클라우드 플랫폼과 관련해 이에 동의했다. 그는 “사이버보안 기능의 진화 측면에서 이전 기술보다 더 성숙했다고 볼 수 있다”라고 말했다.
AI 프로젝트를 위한 보안 체크리스트
AI 프로젝트 보안에 도움이 되는 체크리스트를 소개한다. 이는 딜로이트의 ‘기업 AI 현황(State of AI in the Enterprise, 3rd Edition)’에서 발췌했다.
• 모든 AI 구축에 있어 공식 인벤토리를 보관할 것
• AI 위험 관리를 더욱더 광범위한 위험 관리 전략과 정렬할 것
• AI 관련 위험을 담당하는 책임자를 임명할 것
• 내부 감사 및 테스트를 실시할 것
• 외부 공급업체를 통해 독립적인 감사 및 테스트를 실시할 것
• 실무자에게 AI와 관련된 윤리 문제를 인지하고 해결하는 방법을 교육할 것
• 외부 이해관계자와 협력해 건전한 AI 윤리를 이끌어 낼 것
• AI 공급업체가 편향적이지 않은 시스템을 제공하는지 확인할 것
• AI 윤리를 위한 정책 또는 위원회를 구성할 것
dl-ciokorea@foundryco.com