인공지능(AI)을 둘러싼 대부분의 이야기는 자율주행 자동차, 챗봇, 디지털 트윈 기술, 로봇, AI 기반 ‘스마트’ 시스템 등에 집중돼 있다. 하지만 AI와 머신러닝(ML)은 데이터센터 내부의 서버 랙 안에서도 중요한 역할을 할 것이다.
AI가 데이터센터 분야에 영향을 미칠 분야는 크게 4가지 주요 카테고리로 분류된다.
• 전력 관리 : AI 기반 전력 관리는 냉난방 시스템을 최적화하여 전기 비용을 절감하고 인력을 줄이며 효율성을 높이는 데 도움이 될 수 있다. 이 분야의 대표적인 벤더로는 슈나이더 일렉트릭(Schneider Electric), 지멘스(Siemens), 버티브(Vertiv), 이튼(Eaton Corp) 등이 있다.
• 장비 관리 : AI 시스템은 서버, 스토리지, 네트워킹 장비의 건전성을 모니터링하고 시스템이 여전히 적절히 구성되어 있는지 확인하며 장비가 고장 시기를 예측할 수 있다. 가트너에 따르면 AI옵스 ITIM 카테고리의 벤더로는 옵스램프(OpsRamp), 데이터독(Datadog), 버타나(Virtana), 사이언스로직(ScienceLogic), 제노스(Zenoss) 등이 있다.
• 워크로드 관리 : AI 시스템은 직접 설치, 클라우드, 엣지 환경 사이에서 데이터센터 내부 및 하이브리드 클라우드 환경 안에서 실시간으로 워크로드를 가장 효율적인 인프라로 자동으로 이동할 수 있다. 레드우드(Redwood), 타이달 오토메이션(Tidal Automation), 이그니오(Ignio) 등 AI 기반 워크로드 최적화를 제공하는 소규모 기업들의 수가 증가하고 있다. 시스코, IBM, VM웨어 등의 대기업도 제품을 제공하고 있다.
• 보안 : AI 도구는 정상적인 트래픽이 무엇인지 ‘학습’하고 이상을 찾아내며 보안 실무자의 관심이 필요한 경보의 우선순위를 설정하고 문제의 사후 분석을 지원하며 기업 보안 방어선의 구멍에 대한 권고사항을 제공할 수 있다. 이런 기능을 제공하는 벤더로는 벡트라AI(VectraAI), 다크트레이스(Darktrace), 엑스트라홉(ExtraHop), 시스코(Cisco) 등이 있다.
즉 AI는 기업은 인간의 개입이 거의 필요 없고 높은 수준의 효율성과 회복성을 갖추고 운영되는 매
우 자동화되고 안전하며 스스로 수리하는 데이터센터를 구축하는 데 도움이 될 전망이다. 델 테크놀로지스의 글로벌 CTO실 소속 엔지니어 사이드 타벳은 “AI 자동화가 확장되어 더 높은 수준의 데이터센터 자산 활용도를 달성할 것이다”라며, “데이터를 분석해 에너지 사용을 최적화하고 워크로드를 분산시키며 여타 효율성을 극대화할 것”이라고 말했다.
물론, 자율주행 자동차와 마찬가지로 자율 데이터센터도 아직 완성되지 않았다. 데이터센터에는 AI가 통과해야 할 상당한 기술, 운영, 인력 장벽이 존재한다.
전력 관리는 서버 워크로드 관리와 유관
데이터센터는 글로벌 전기 공급량의 3%를 소비하고 약 2%의 온실 가스를 배출시키는 것으로 추산된다. 많은 기업들이 비용을 절감하고 환경적 책임을 지기 위해 데이터센터 전력 관리를 면밀히 살피는 배경이다.
451 리서치의 수석 분석가 다니엘 비조는 AI 기반 시스템이 데이터센터 운영자에게 다양한 혜택을 제공할 수 있다고 전했다. 특히 기류를 방해하는 고밀도 캐비닛, 성능이 부족한 HVAC 장치, 열기와 냉기 통로 사이의 부족한 공기 분리 등, 현재의 또는 잠재적인 냉각 문제를 이해하는 데 도움이 될 수 있다는 설명이다.
비조는 이어 AI가 데이터센터 설계를 넘어 데이터센터 HVAC 시스템 데이터와 환경 감지 값을 상호 연계시키는 등 시설을 학습할 수 있을 것이라고 덧붙였다.
전력 관리는 손쉽게 달성할 수 있는 목표라고 IT 자문 및 컨설팅 기업 스토리지IO(StorageIO)의 설립자 그렉 슐츠가 평가했다. 그는 “현재 중요한 것은 생산성, BTU당 작업 처리 효율 증가, 에너지 와트당 작업 처리량 증가, 즉 더 스마트하게 일하고 장비를 더 스마트하게 운용하는 것이다”라고 말했다.
또한 용량 계획 측면도 있다. 데이터센터가 적절한 수의 물리적인 서버에 전력을 공급하고 일시적인 수요 증가 시 새로운 물리적인 서버를 구성(해제)할 수 있는 용량을 확보하는 데 AI가 일조할 수 있는 것이다.
슐츠는 아울러 전력 관리 도구가 발전하면서 장비와 워크로드를 관리하는 시스템에 통합되고 있다고 덧붙였다. 예를 들어, 센서가 과도한 서버 온도를 감지하면 시스템이 워크로드를 활용도가 낮은 서버로 신속하게 자동으로 이동시키는 식이다. 그리고 AI 시스템이 서버 과열 문제를 조사할 수 있다. 고장 난 팬(HVAC 문제), 곧 고장 난 물리적인 부품(장비 문제), 서버 과부하(워크로드 문제) 등의 원인을 파악하는 것이다.
AI를 통한 건전성 모니터링, 구성 관리 감독
데이터센터는 정기적인 유지보수가 필요한 물리적인 장비로 가득 차 있다. AI 시스템은 예약된 유지보수의 수준을 넘어 즉각적인 주의가 요구되는 특정 영역을 찾을 수 있는 텔레메트리 데이터에 대한 수집 및 분석을 도울 수 있다. 슐츠는 “AI 도구는 모든 데이터를 분석하여 패턴을 찾아 이상을 발견할 수 있다”라고 말했다.
비조는 “건전성 모니터링은 장비가 올바르게 구성되어 있고 기대치에 부합하는지 확인하면서 시작된다. 수만 개의 구성품을 가진 수백 또는 수천 개의 IT 캐비닛의 경우 이런 일상적인 작업이 노동 집약적일 수 있기 때문에 항상 시의 적절하고 엄격하게 수행되지는 않는다”라고 덧붙였다.
그는 또 많은 양의 데이터 로그에 기초한 예비 장비 고장 모델링으로 ‘어렴풋한 구성품 또는 장비 고장을 찾아내고 서비스 정지’를 유발할 수도 있는 용량 손실을 방지하기 위해 즉각적인 유지보수가 필요한지 여부를 평가할 수 있다고 전했다.
주니퍼 네트웍스(Juniper Networks)의 기업 및 클라우드 마케팅 부사장 마이클 부숑은 기업 데이터센터 운영자들이 AI와 관련된 일부 지나친 약속과 광고에 주의할 필요가 있다며, 그가 말하는 ‘지루한 혁신’에 집중해야 한다고 지적했다.
“그렇다. AI 시스템은 언젠가 ‘나에게 무엇이 잘못되었고 그것을 고치라고 말할 수 있을 것이다. 그러나 ‘문제가 발생하면 위치를 알려주는’ 수준으로도 충분히 효율성이 있다”라고 그는 말했다.
이 밖에 원활하고 안전한 장비 운영 유지의 또 다른 중요한 측면은 구성 추이를 통제하는 것이다. 이것은 데이터센터에서 즉석 구성 변경사항이 점차 축적되어 문제를 발생시키는 현상을 일컫는 말이다. 부숑은 “AI를 ‘추가적인 안전 점검’으로 활용하여 임박한 구성 기반 데이터센터 문제를 찾을 수 있다”라고 말했다.
AI와 보안
비조에 따르면 AI와 머신러닝은 중요한 것을 찾아 노이즈로부터 분리하기 위해 신속한 이벤트 분류 및 클러스터링을 수행하여 이벤트 취급(사고 대응)을 간소화할 수 있다. 그는 “더욱 신속한 기저 원인 분석은 인간 운영자가 정보에 기초하여 의사를 결정하고 조치를 취하는 데 도움이 된다”라고 말했다.
AI는 특히 실시간 침입 감지에 유용할 수 있다고 슐츠가 덧붙였다. AI 기반 시스템은 위협을 감지, 차단, 격리한 후 되돌아가 포렌식 조사를 수행하여 무슨 일이 있었고 해커가 어떤 취약성을 악용할 수 있었는지 정확히 판단할 수 있기 때문이다.
SOC에서 근무하고 있는 보안 전문가들은 과도하게 많은 경보를 받을 때가 있지만 AI 기반 시스템은 많은 양의 텔레메트리 데이터와 로그 정보를 스캔하여 일상적인 작업을 줄임으로써 보안 전문가들이 더욱 심오한 조사를 수행하도록 도울 수 있다고 비조는 설명했다.
AI 기반 워크로드 최적화
애플리케이션 계층에서 AI는 워크로드를 직접 설치 또는 클라우드 등 적절한 도착 지점으로 이동시키는 것을 자동화할 수 있다. 비조는 “AI/ML은 앞으로 성능, 비용, 거버넌스, 보안, 위험, 지속 가능성을 기준으로 다양한 사양을 고려하여 워크로드의 위치를 실시간으로 결정할 것이다”라고 말했다.
예를 들어, 워크로드를 자동으로 가장 전력 효율적인 서버로 이동하고 서버가 최대 효율성(70~80% 활용도)으로 작동하도록 할 수 있을 것이다. AI 시스템은 성능 데이터를 이 수식에 통합하여 시간이 민감한 앱이 고효율성 서버에서 구동하도록 하면서 동시에 고속 실행이 필요 없는 애플리케이션에서 과도한 에너지가 낭비되지 않도록 할 수 있다고 비조가 말했다.
실제로 MIT 연구원들은 지난해 수천 개의 서버에 걸쳐 데이터 처리 운영을 예약하는 방법을 자동으로 학습하는 AI시스템을 개발했다고 발표한 바 있다. 하지만 부숑이 지적했듯이 오늘날의 워크로드 최적화는 일반적인 기업 데이터센터가 아니라 아마존, 구글, 애저 같은 대기업의 영역이다. 그리고 그 이유는 다양하다.
AI 구현의 문제
데이터센터 최적화와 자동화는 지속적인 디지털 전환 이니셔티브의 중요한 부분이다. 델의 타벳은 “코로나19로 인해 많은 기업들이 현재 추가적인 자동화를 추진하고 있으며 AI 지향적이며 자동 수리가 가능한 ‘디지털 데이터센터’의 아이디어를 추구하고 있다”라고 전했다.
구글은 2018년 자사의 여러 초대형 데이터센터의 냉각 시스템의 통제를 AI 프로그램으로 이전했다고 발표했으며, 해당 기업은 AI 알고리즘의 권고사항으로 에너지 사용량이 40%나 감소했다고 보고했다.
하지만 구글 외의 기업들에게는 데이터센터 분야의 AI가 ‘그저 목표일 뿐’ 이라고 비조가 말했다. 그는 “일부 AI/ML 기능은 이벤트 취급, 인프라 건전성, 냉각 최적화에 적용할 수 있다. 하지만 AI/ML 모델이 오늘날의 일반적인 DCIM으로 가능한 수준을 넘어 더욱 가시적인 성과를 달성하려면 몇 년이 걸릴 것이다. 자율주행 자동차 개발과 마찬가지로 초기 단계는 흥미로울 수 있지만 궁극적으로 약속하는 혁신적인 경제/비즈니스와는 거리가 멀다”라고 말했다.
타벳에 따르면 적절한 사람을 고용하거나 교육하여 시스템을 관리해야 한다는 점이 장벽 중 하나이다.
가트너는 “AI옵스 플랫폼 성숙도, AI 기술, 운영 성숙도가 주된 억제제이다. 기타 새로운 고급 배치의 문제로는 데이터 품질, (IT 인프라 및 운영팀 내부의) 데이터 사이언스 기술의 부재 등이 있다”라고 밝혔다.
부숑은 언제나 사람이 큰 장벽이라고 덧붙였다. 그는 데이터 사이언티스트를 고용하는 것이 많은 기업들에게 문제가 되고 있으며 기존의 직원을 교육하는 것도 어렵다고 지적했다.
또한 직원들은 역사적으로 통제력을 앗아가는 기술을 거부했던 적이 많다고 부숑이 말했다. 그는 SDN 개발된 지 10년이 되었지만 IT 운영의 3/4 이상이 여전히 CLI 지향적이라고 지적했다.
부숑이 “우리는 모든 인프라의 운영자들이 AI에 통제권을 넘겨줄 준비가 되어 있다고 생각해야 한다. 한 집단의 사람들이 통제자의 의사결정 능력을 신뢰하지 못한다면 어떻게 이런 태도가 업계 전반에 걸쳐 만연한 상황에서 그들이 태도를 바꾸도록 교육할 수 있을까? 그렇게 하면 일자리를 잃게 될 것이다”라고 말했다.
부숑은 기업들이 AI를 점진적으로 추진하고 광고에 현혹되지 않아야 할 이유라고 덧붙였다. dl-ciokorea@foundryco.com