자세히 보기

Grant Gross
Senior Writer

점점 쌓이는 쿠버네티스 운영 비용··· AI 자동화 도구가 주목받는 이유

뉴스 분석
2025.08.206분
예산 책정클라우드 컴퓨팅컨테이너

쿠버네티스(Kubernetes) 사용 확대와 함께, 프로비저닝 전략의 비효율성이 비용 문제를 키우고 있다. 이로 인해 많은 기업이 AI 기반 자동화 도구를 도입해 배포 환경을 효율적으로 관리하고, 총소유비용(TCO)을 줄이려는 움직임을 보이고 있다.

shipping trucking container supply chain shutterstock 402767335
Credit: SasinTipchai / Shutterstock

컨테이너화된 애플리케이션은 클라우드 환경에서 기업에 다양한 이점을 제공하지만, 운영 관리 비용이 그 혜택에서 제외되는 경우가 많다는 사실은 잘 알려져 있지 않다.

최근 설문조사에 따르면 컨테이너 오케스트레이션을 위해 쿠버네티스를 사용하는 기업 대다수가 지난 1년간 운영 비용이 증가했다고 밝혔으며, 이 중 많은 기업들이 비용 관리를 위해 AI 도입을 추진하고 있는 것으로 나타났다.

쿠버네티스 관리 전문기업 스펙트로 클라우드(Spectro Cloud)가 실시한 설문조사에 의하면, 응답자의 약 88%가 지난 1년간 총소유비용(TCO)이 증가했다고 답했으며, 92%는 AI 기반 비용 최적화 도구에 투자하고 있다고 밝혔다.

스펙트로 클라우드의 필드 CTO인 제레미 오키는 “쿠버네티스 사용이 늘어나면서 비용도 함께 증가하는 경향이 있지만, 비용 상승은 단순히 하드웨어나 클라우드 서비스, 기술지원 계약 때문만은 아니다”라고 설명했다.

오키는 “플랫폼 엔지니어의 연봉이 연간 20만 달러에 달하는 경우도 많아 인건비 역시 주요 비용 요인 중 하나다. 이 외에도 엣지 클러스터 배포 및 유지 관리를 위한 현장 엔지니어 비용, 개발자가 클러스터 관리에 과도한 시간을 들이면서 발생하는 생산성 저하 등도 추가 비용으로 작용한다”라고 말했다.

오키는 “쿠버네티스 사용 증가가 전체 비용 상승의 주요 원인이긴 하지만, 과도한 리소스 할당(오버프로비저닝)과 같은 다른 문제들도 비용 부담을 키우는 요인”이라고 설명했다.

그는 “쿠버네티스 리소스 요구량을 예측하는 일이 쉽지 않기 때문에, 개발자들이 혹시 모를 상황에 대비해 여유 있는 구성값을 설정하는 경우가 많다. 이런 상황이 대규모 환경에서는 클러스터가 무분별하게 생성되는 결과(cluster sprawl)를 낳는다”라고 지적했다.

오키에 따르면 쿠버네티스 운영에서 아키텍처 결정 역시 주요한 비용 요인이다. 그는 “클라우드 간 데이터 송수신(ingress/egress)에는 상당한 비용이 발생할 수 있으며, 엣지 환경에서 멀티 노드 클러스터를 운영하는 것도 지출을 크게 늘리는 원인”이라고 설명했다.

오키는 쿠버네티스 운영 팀이 도구 활용 방식에 있어 보다 체계적이고 절제된 접근이 필요하다고 말했다. 사용하지 않는 클러스터를 폐기할지 여부, 리소스 축소, 적절한 오토스케일링 기준 설정, 로그 보존 기간이나 스토리지 구성 정책 검토 등 다양한 측면을 면밀히 고려해야 한다는 설명이다.

비효율적 배포 전략

디지털 트랜스포메이션 및 클라우드 마이그레이션 전문업체 피보탈테크놀로지스의 CEO 야신 만라지는 “쿠버네티스 기반 환경에서 비용이 증가하는 주된 원인은 비효율적인 구성, 과도한 리소스 할당, 최적화되지 않은 자원 운영에 있다”라고 분석했다.

그는 “많은 이들이 쿠버네티스를 정적인 가상머신이나 서버처럼 다루는 경향이 있다. 이런 접근 방식은 방치된 리소스를 양산하고, 쿠버네티스의 역할과 기능에 대한 명확한 이해 없이 운영되게 한다. 오케스트레이션의 복잡성과 클러스터 제어에 대한 이해 없이 단순히 쿠버네티스를 써야 한다는 압박감 속에서 운영을 시작하는 것이 가장 큰 문제”라고 지적했다.

클라우드 관리 플랫폼 벤더 클라우드볼트소프트웨어(CloudBolt Software)의 최고운영책임자(COO) 야스민 라자비는 “쿠버네티스는 기본적으로 과도한 리소스 할당 상태로 배포되는 경우가 많으며, 대부분의 팀이 야간 장애 호출을 피하기 위해 CPU와 메모리에 여유 버퍼를 넉넉히 설정하는 경향이 있다”라고 설명했다.

라자비는 “개발자와 플랫폼 엔지니어는 평가 기준이 서로 다르다. 개발자는 얼마나 빠르게 새로운 애플리케이션을 배포하고 비즈니스 성과를 내느냐가 핵심이기 때문에 비용 효율성은 우선순위에서 밀린다. 따라서 가장 쉽고 안전한 선택은 워크로드에 충분한 리소스 버퍼를 확보해두는 것”이라고 말했다.

라자비는 리소스 버퍼로 인한 비용이 수천 개에 달하는 쿠버네티스 워크로드에 걸쳐 누적되면 순식간에 막대한 금액으로 불어날 수 있다고 진단했다.

그에 따르면 동적 워크로드는 수요 예측이 어려운 데다, 대부분의 조직이 변화하는 워크로드 요구사항에 따라 리소스 요청량과 한도를 지속적으로 조정할 수 있는 도구를 갖추고 있지 않는 경우가 많다. 또한 라자비는 적절한 리소스 규모를 설정하는 ‘라이트사이징(rightsizing)’이 수작업으로 진행되어야 하기 때문에 시간이 많이 걸린다고 설명했다.

라자비는 “쿠버네티스에 애플리케이션을 배포하는 일은 쉽지만, 운영은 결코 쉽지 않다. 쿠버네티스는 기업이 비즈니스에 영향을 주는 애플리케이션을 빠른 속도로 배포하고, 혁신과 시장 대응을 위한 유연성까지 확보할 수 있게 해준다. 그러나 이처럼 기대됐던 배포 속도와 유연성은 대규모 환경을 운영하는 데 따르는 복잡성과 비용 부담과 충돌한다”라고 말했다.

활용되지 않는 CPU

디지털 마케팅 에이전시 뉴미디어닷컴(NEWMEDIA.com)의 창립자 겸 CEO 스티브 모리스는 자사의 쿠버네티스 관련 비용이 지난 1년 동안 18% 증가했다고 밝혔다. 그가 말한 주요 원인은 인건비와 비일관적인 스케일링 설정이었다. 쿠버네티스 오토스케일링 설정을 점검한 결과, 전체 워크로드의 31%가 하루의 95% 시간 동안 CPU 사용률이 25% 미만에 머물렀다고 설명했다.

모리스는 “릴리스 팀이 각자 클러스터를 관리하고 오토스케일링 규칙까지 직접 정의하게 되면 보수적인 리소스 설정이 구성 파일에 그대로 고정되는 경우가 많다”라며, “엔지니어들은 리소스를 줄였다가 장애가 발생하거나 SLA(서비스 수준 계약)를 지키지 못할까 우려해 조정을 꺼리는 경향이 있다”라고 말했다.

모리스는 가령 플랫폼 엔지니어 2명이 주당 절반의 시간을 용량 조정과 불필요한 경고 처리에 쓰고 있다면 인건비가 빠르게 불어날 수 있다고 지적했다. 그는 “운영 오버헤드는 단순히 트래픽이 늘어날 때뿐 아니라 새로운 서비스가 추가될 때마다 증가한다. 팀마다 리소스 결정을 자율적으로 하도록 두면 배포 속도는 빨라지지만, 비용 책임이 분산되고 낭비가 드러나지 않는다는 문제도 생긴다”라고 말했다.

한편 만라지는 쿠버네티스가 많은 기업의 IT 인프라 중심에 자리잡으면서 비용 부담에 대한 우려도 더욱 커지고 있다고 진단했다. 그는 “쿠버네티스 도입이 확산될수록 조악하게 설계된 도구의 난립과 외부 벤더에 대한 의존이 함께 늘어나면서 문제가 더욱 심화될 것으로 본다”라고 말했다.

만라지에 따르면 피보탈은 아직 쿠버네티스 비용을 관리할 수 있는 자동화 솔루션을 찾지 못했다. 그는 “새로운 도구와 기술을 꾸준히 테스트하고 있지만, 현재까지 GCP 기본 도구보다 약간 더 나은 시각화 대시보드를 제외하고는 우리나 고객에게 실질적인 가치를 제공하는 도구를 찾지 못했다”라고 설명했다.

AI로 눈 돌리는 실무진

이런 쿠버네티스 운영의 복잡성으로 인해 실무진은 AI 기반 관리 도구의 도입을 적극적으로 검토하고 있다.

라자비는 “리소스 할당은 복잡하고 다차원적인 문제로, 사실상 매우 까다로운 수학 문제와 같다. AI와 머신러닝(ML) 도구는 이러한 복잡한 계산을 해결하는 데 도움을 줄 수 있으며, 자동화와 결합해 워크로드에 적절한 설정을 적용하도록 구성할 수 있다”라고 설명했다.

오키에 의하면 현재 일부 벤더는 자율적으로 라이트사이징 및 지능형 오토스케일링 기능을 제공하고 있다.

오키는 “AI 기반 비용 최적화 도구 시장이 빠르게 진화하고 있으며, 쿠버네티스 관리와 핀옵스(FinOps) 영역에서 벤더들이 시장으로 빠르게 모이고 있다. 관리 측면에서는 이런 도구들이 실시간 파드(pod) 활용도를 지속적으로 모니터링하고, 과거 사용 패턴을 학습해 리소스 요청량, 노드 크기, 스팟 인스턴스와 온디맨드 인스턴스 간의 균형까지 자동으로 조정한다”라고 말했다.

핀옵스 벤더들 역시 AI와 머신러닝(ML) 기능을 통합해 보다 선제적인 비용 통제 기능을 구현하고 있다.

오키는 “이런 기능들이 모두 고도화된 AI라고 보긴 어렵지만, 전체 툴체인에 더 높은 수준의 지능과 자동화가 내장되고 있는 추세는 분명하다. 이런 기술 융합은 운영 통제와 재무 책임을 결합한 보다 정교하고 선제적인 쿠버네티스 비용 최적화 접근 방식을 만들어내고 있다”라고 분석했다.

그는 CIO들이 클라우드 벤더와의 요금 협상이나 오토스케일링 기능 활용 등 비용을 절감할 수 있는 모든 전략을 동원해야 한다고 조언했다. 또한 조직의 비즈니스 목표에 맞춰 IT 아키텍처의 방향성을 일치시키는 것도 중요하다고 덧붙였다.

이런 결정에는 CIO가 데이터센터 임대를 클라우드 기반 운영비로 전환할지, 자동화를 통해 IT 인재를 전략적으로 감축할지 등의 결정도 포함될 수 있다.

다만 오키는 AI 시대에 비용과 투자를 구분해야 한다고 조언했다. 그는 “혁신적이고 수익을 창출하는 애플리케이션을 지원하기 위해 쿠버네티스 클러스터를 배포하는 일은 단순한 비용이 아니라 혁신과 경쟁력 강화를 위한 투자다. 결국 핵심 질문은 현재의 쿠버네티스 인프라가 애플리케이션 팀에 속도, 선택권, 유연성 측면에서 최대의 가치를 제공할 수 있도록 운영되고 있느냐는 점”이라고 설명했다.
dl-ciokorea@foundryco.com

Grant Gross

Grant Gross, a senior writer at CIO, is a long-time IT journalist who has focused on AI, enterprise technology, and tech policy. He previously served as Washington, D.C., correspondent and later senior editor at IDG News Service. Earlier in his career, he was managing editor at Linux.com and news editor at tech careers site Techies.com. As a tech policy expert, he has appeared on C-SPAN and the giant NTN24 Spanish-language cable news network. In the distant past, he worked as a reporter and editor at newspapers in Minnesota and the Dakotas. A finalist for Best Range of Work by a Single Author for both the Eddie Awards and the Neal Awards, Grant was recently recognized with an ASBPE Regional Silver award for his article “Agentic AI: Decisive, operational AI arrives in business.”

이 저자의 추가 콘텐츠