머신러닝의 발전으로 보안 시스템을 더 쉽게 훈련시킬 수 있게 된다. 또 변화에 더 유연하게 대응할 수 있게 된다. 머신러닝이 보안 분야에
머신러닝과 인공 지능은 최근 많은 관심을 받고 있으며 이 기술에 열광하는 데에는 그만한 많은 이유가 있다.
하지만, 그에 따른 부작용도 있다. 그중 하나는 이제 거의 모든 것에 ‘머신러닝’이라는 라벨을 붙이고 있기 때문에 이 용어를 정확히 이해하기가 매우 어려워졌다는 점이다. ‘클라우드’가 온라인의 거의 모든 것을 의미하는 말이 되었듯이 ‘인공 지능’도 컴퓨터와 관련된 것의 모든 것에 라벨이 붙는 방향으로 빠르게 바뀌고 있다.
PwC(PricewaterhouseCoopers LLC)의 미국 분석 혁신 책임자인 에이넌드 라오는 “과대광고도 있다”며 “이로 인해 사람들은 AI가 초지능이 되어가고 있으며 인간성과 인간의 의사 결정을 대신하게 될 것으로 오해하고 있다”라고 말했다.
일반적인 보안 업무 중 하나는 새로 다운로드 하거나 설치한 애플리케이션이 악성인지를 판단하는 것이다. 전통적인 접근방식은 기본 전문가 시스템으로 애플리케이션의 서명과 알려진 악성코드의 서명이 일치하는지 판단한다.
하지만 이 표준 백신 접근방식에는 단점이 있다. 새로운 악성코드가 등장하면서 지속적인 업데이트가 필요하며 극단적으로 불안정하다는 점이다. 약간만 수정한 악성코드도 손쉽게 감지를 피할 수 있다.
신생벤처인 딥 인스팅트(Deep Instinct)는 이 문제에 딥러닝(Deep Learning) 기법을 적용하려 하고 있다. 학습에 사용할 수 있는 알려진 악성코드 샘플이 현재 약 10억 개에 달한다는 점에 착안했다.
팁 인스팅트의 CTO 엘리 데이비드는 “딥러닝이 많은 영역에 혁신을 가져왔다”며 “컴퓨터 비전이 연간 20~30% 개선되면서 곧 수퍼 인간 비전으로 발전할 것이다. 그렇게 되면 음성 인식, 사이버 보안에 활용하지 말란 법이 없다”고 강조했다.
데이비드는 확률 기반의 머신러닝 시스템이 제한적이라고 지적했다. 그에 따르면, 최적의 결과를 위해 전문가가 식별하고 가중치를 두고 바꿀 수 있는 요소가 너무 많고 고려하지 않는 다른 요소는 사소하거나 관련성이 없는 것으로 치부되곤 한다. 그는 “데이터 대부분이 버려지고 있다”고 표현했다.
딥 인스팅트의 작동 방식은 실험실에서 알려진 모든 악성코드 샘플을 딥러닝 시스템으로 학습하는 것이다. 이 프로세스는 약 하루가 소요되며 데이터를 분석하기 위해 강력한 그래픽 처리 장치가 필요하다.
데이비드는 “이를 통해 학습된 시스템은 약 1GB 크기로 대부분 애플리케이션에는 너무 크지만 팁 인스팅트는 이를 약 20MB로 정리한다”고 밝혔다. 그러고 나서 모바일을 포함하여 범용 엔드포인트 기기에나 설치할 수 있으며, 가장 느린 기기에서도 수 밀리초 만에 유입되는 위협을 분석할 수 있다고 그는 덧붙엿다.
데이비드에 따르면, 평균 1MB 파일을 분석하는데 소요되는 시간이 1ms 미만이다. “실험실에서 복잡한 인프라를 이용해 모든 복잡한 일을 진행하고 있다. 이용자는 매우 작은 두뇌를 얻게 된다. 물론 사용자는 이런 복잡성에 대해 몰라도 된다”라고 그는 설명했다.
실험실에서는 새로운 악성코드 샘플을 데이터 콜렉션에 추가하고 3~4개월 마다 엔드포인트 기기에서 동작하는 두뇌에 업데이트를 제공하게 된다.
데이비드는 “하지만 6개월 동안 두뇌를 업데이트하지 않더라도 여전히 새로운 파일을 감지할 수 있다. 딥러닝은 새로운 변화나 변종을 가리지 않는다는 점에서 탁월하다”라고 말했다.
실제로 매일 등장하는 수백만 개의 새로운 악성코드 샘플은 기존의 악성코드를 조금씩 변형한 것들이다. 데이비드는 “정교한 공격 및 국가의 새로운 제로데이(Zero Day)도 여전히 기존의 것과 80% 일치한다”며 “전통적인 방법으로는 이것들을 감지할 수 없지만 딥러닝은 손쉽게 감지할 수 있다”고 강조했다.
그는 팁 인스팅트가 독립적인 실험실들과 결과를 정량화하기 위해 협력하고 있으며 포춘지 선정 500대 기업을 대상으로 진행한 초기 시험에서 기존의 솔루션과 비교하여 20~30% 높은 악성코드 감지율을 기록했다고 말했다.
팁 인스팅트는 최근 미국 내 한 대형 은행의 파일 10만 개로 시험을 진행했다. 데이비드는 “기존의 솔루션은 당일 오전에 업데이트했고 우리의 것은 업데이트한 지 2개월이나 지난 상태였다. 기존의 솔루션은 40%를 감지했지만 우리의 솔루션은 99.9%의 감지율을 기록했다”고 설명했다.
이유 찾기
최신 딥러닝 시스템의 단점 중 하나는 답을 제시할 수 있지만 어떻게 했는지 설명할 수 있는 것은 아니라는 점이다. 하지만 항상 그런 것은 아니다.
뉴토니언(Nutonian)의 비전매 특허 AI 엔진인 유레카(Eureqa)의 주된 임무는 모든 결과의 원인에 대한 설명을 찾는 것이다.
예를 들어, 물리학 데이터를 가리키면 유레카는 뉴턴(Newton)의 법칙을 찾을 수 있었다고 해당 기업의 설립자 겸 CTO 마이클 슈미트는 말했다.
슈미트는 “무슨 일이 일어났는지 그리고 그 관계가 무엇인지 설명하는 가장 단순하고 고급스러운 방법을 찾는다”고 이야기했다.
유레카는 검색자들에게 해당 엔진을 무료로 제공했으며 이미 500개 이상의 저널 출판에 유용하게 사용되었다. 예를 들어, 의료의 경우 반점 발생과 맹장염 등의 질병을 진단하는 데 도움이 되는 새로운 모델을 찾는 데 도움이 되었다.
그는 유레카를 사이버 보안에도 적용될 수 있다고 설명했다. 그는 “사이버 공격과 관련해 가장 어려운 문제 중 하나는 공격의 구조를 찾는 것”이라며 “유레카가 적용된 AI의 애플리케이션 중 하나는 해당 프로세스를 자동으로 처리할 수 있다”라고 전했다.
고객이 클라우드 기반 시스템에 가입하면 약 1시간 만에 데이터를 처리한 후 신속하게 답변을 제공하게 된다. 그는 “우리는 수개월 또는 수년이 걸려 도출한 결과를 수 분 만에 재현할 수 있었다”고 말했다.
지역적인 특수성을 고려한 학습과 글로벌 상황에 맞는 학습 병행
한편 사이버 보안에서는 상황이 급격하게 변화하기 때문에 어느 머신러닝 시스템이나 정기적인 업데이트가 중요하다.
정기적으로 업데이트하지 않는다면, 시스템은 결국에 가서는 쓸모없게 된다. 직원들은 새로운 작업을 시작하고, 업체는 애플리케이션을 변경한다. 고객들은 쇼핑 패턴을 바꾸고 당연히 해커들도 기존의 시스템을 우회하도록 설계된 새로운 악성코드를 개발할 것이다. 결국 다음 업데이트가 제공될 때까지 취약성이 존재하게 된다.
악당들은 또 보안 소프트웨어를 이용해 자신의 공격을 시험해 효과가 있는 것을 찾을 수 있다. 관리형 네트워킹 기업 마서지 커뮤니케이션(Masergy Communications)의 최고 과학자인 마이크 스튜트는 “그러고 나서 그들은 다음 업데이트가 제공될 때까지 해당 업체의 모든 고객들을 대상으로 이를 이용할 수 있다”고 설명했다.
스튜크는 많은 보안 업체들이 이용하는 만능 접근방식을 피하는 것이 하나의 해결 방법이라고 말했다. 그는 “지역 패턴, 동료 패턴, 산업 전반의 패턴을 분석해 개별적으로 업데이트할 수 있다”고 밝혔다.
마서지는 일정 수의 범용 요소를 이용해 의심스러운 무언가가 발생할 가능성을 찾은 후 이를 고유의 지표와 조합한다. 설명에 따르면, 범용 시스템은 제한된 수의 투입값만 확인할 수 있다. 반면 마서지는 가장 자주 나타나는 특징을 찾을 수 있다.
스튜크는 “지역에만 초점을 맞춰 투입값을 추가할 수 있다”며 “지역 모델에서는 더 작은 특징들로 데이터셋을 압축할 필요가 없다”라며, 이를 통해 고유의 특성에 맞출 뿐 아니라 정확도도 훨씬 높아진다고 강조했다.
사이버 위협을 감지하기 위해 머신러닝을 이용하는 블루벡터(BluVector) 기기 제조사인 애쿼티 솔루션즈(Acuity Solutions)도 범용 접근방식과 특정 지역에 맞춘 접근방식을 사용하고 있다.
미 정부 기관을 위한 고급 검색 프로그램에 기초한 이 시스템은 수년 동안 보안 면에서 건강한 소프트웨어에서 양성 코드를 학습한다.
애쿼티의 CEO 크리스 러브조이는 “우리 엔진은 코드 조각을 살피고 이 코드 조각은 양성 코드에서 기대할 수 있는 특징이 없다고 알려줄 수 있다. 그러면서도 개별 고객사에 맞춰 새로운 사례들도 학습해 통합한다”라고 설명했다.
러브조이는 “고객에 제공하기 전에 엔진을 사전 학습시킨다. 제공된 시점부터는 둥지를 떠난 아이와 마찬가지로 고객의 환경 내에서 지속적으로 학습한다”고 말했다.
또한 메인 엔진은 범용 데이터를 기반으로 분기 별로 업데이트되지만 시스템별로 특수한 고객별 데이터를 공유하지 않는다.
이 덕분에 제품의 각 배치가 조금씩 다르며, 각 특정 고객에 맞춤 개발된다. 공격자가 시스템의 사본을 구매하여 우회하는 코드를 발견한다 하더라도 효과를 보기 어렵게 된다.
“이는 이동식 방어 체계다. 기술이 환경별로 특화되기 때문에 리버스 엔지니어링할 수 없다”라고 러브조이는 말했다.
dl-ciokorea@foundryco.com