핵전쟁 그리고 팬데믹, 그 다음엔 지구에 충돌하는 소행성, 태양 폭발을 걱정하는 목소리가 있다. 일각에서는 이제 이 목록에 AI를 추가해야 한다고 주장하고 있다. AI가 지구상의 모든 생명체를 멸종시킬 수 있다는 우려는 차치하더라도, ‘생성형 AI’와 같은 AI 기술이 몇 가지 위험을 초래할 수 있다는 우려에는 타당성이 있다. 특히 네트워크 운영에 AI를 적용하고자 하는 경우 그렇다.
필자는 지난 한 달 동안 197명의 고위 IT 및 네트워크 전문가들로부터 의견을 받았다. 이들 중 아무도 AI가 인류 대멸종을 초래할 것이라고는 믿지 않았다. 절반이 훨씬 넘는 이들은 AI 활용의 심각한 단점은 없었다고 이야기했고, 모두가 자신의 비즈니스 ‘어딘가에’ AI를 사용한 바 있다고 답했다. 마지막으로 34명은 네트워크 운영에서의 AI 사용에 대한 실질적인 통찰을 공유해줬다.
요즘 AI에서 가장 주목받는 영역은 챗GPT가 대중화한 생성형 AI 기술이다. 그러나 197명 전문가 중 누구도 운영 자동화를 위해 이 기술을 사용하고 있다고 답하지 않았다. 57명의 전문가(57곳의 기업)은 운영 자동화에의 사용을 고려 했으나 두 가지 이유로 빠르게 포기했다고 답했다.
첫째, 실제 오류가 결과에서 발견됐다. 결과를 실행했다면 큰 문제를 초래할 수 있을 정도로 심각한 오류였던 적도 있었다. 둘째, AI가 어떻게 결론에 도달했는지 이해하는 게 거의 불가능했다. 실행 전 검증이 상당히 어려웠다는 의미다.
이러한 정확성 문제는 로페어(Lawfare)의 최근 기사에서 환기된 바 있다. 한 학자가 챗GPT를 활용해 자신을 검색한 결과 자신이 작성한 논문의 목록과 컨퍼런스 프레젠테이션 자료를 확인했다. 문제는 이러한 참조 정보가 완전히 틀렸다는 점이다. 챗GPT가 내놓은 결과는 그가 했던 작업이 아니었다.
운영 문제에 대해 동일한 시도를 한 기업 IT 전문가는 상당히 신뢰성이 높아 보이지만 완전히 부정확한 결과를 얻었다고 전했다. 또 자체 기록 네트워크 데이터(historical network data)에서 생성형 AI 기술을 시도한 한 운영 관리자는 네트워크 전체를 파괴할 수 있는 구성 변경안이 추천됐다고 전했다. 그는 “결과의 4분의 1은 틀렸고 8분의 1은 상당히 틀렸다. 이런 수준의 정확성에 기반해 실행에 옮길 수는 없다”라고 설명했다.
또한 직원들이 동일한 데이터에 대한 전문적인 분석을 수행하고 그 결과를 실행하는 데 들어간 시간보다 더 많은 시간을 결과 테스트에 소요해야 했다고 그는 덧붙였다.
이 지점에서 AI가 어떻게 결론에 도달했는지에 대한 세부 정보가 부족하다는 두 번째 문제가 확인될 수 있다. 필자의 경우, 생성형 AI가 오답을 제시하도록 유도했다. 이 오답은 비논리적이었으므로 알아챌 수 있었다. 그러나 테스트할 벤치마크 결과가 없었다고 가정하면 이야기가 달라진다.
어떻게 결론에 도달할 수 있었는지 이해할 수 있다면 문제를 식별할 수 있다. 생성형 AI를 유용한 도구로 써먹으려면 이는 필수적이라고 사용자들은 입을 모았다. 이들과 필자는 현재의 생성형 AI 기술이 이 수준에 아직 도달했다고 보지 않는다.
다른 비생성형 AI 모델은 어떨까? AI 혹은 AI/ML 기능을 탑재한 운영 툴킷은 20여 종이 넘는다. 주로 제한된 행동 범위를 가지고 있고 신속히 확인 가능한 의사 결정 단계의 흔적을 남기기 때문에 사용자들은 긍정적이다. 일부 현장에 따르면, 스캔 한 번으로도 의심스러운 결과를 골라낸다. 그러나 이러한 도구조차도 사용자에게 문제를 초래한다. 특히 큰 문제는 ‘상황 인식의 상실(loss of situational awareness)’이다.
네트워크 혹은 IT 운영 센터는 여러 문제에 대응해야 하는 전문가로 이루어져 있다. 대부분의 AI 운영 도구는 자동 실행(automatic action)에 사용되지 않는다. 문제의 진단에 사용된다. 대부분의 경우, 이는 운영 직원이 처리해야 하는 이벤트를 필터링하는 효과가 있으며, 실제로 이벤트 및 장애의 상관 관계 및 근본 원인 분석 또한 이와 같이 한다.
운영 전문가의 불필요한 작업을 덜어주는 것은 좋다. 문제는 어느 정도까지냐다. 직원이 상황에 대한 ‘그림을 잃고’ 무엇을 언제 해야 하는지 맥락 속에서 파악할 수 없게 되는 정도까지라면 이야기가 달라진다. AI를 향한 움직임은 결국 자동화 증대를 향한 움직임이다. 그러나 직원이 너무나 많은 것으로부터 보호되어 네트워크에 대한 상황 인식을 상실할 수 있다는 점에서 상당한 위험이기도 하다.
지금까지의 이야기가 AI 기반 운영 측면에서 부정적인 소식이라고 생각할 수 있다. 다소 그렇기는 하다. 그러나 두 가지 희소식이 있다.
첫째, AI 관련 문제를 겪은 사용자 중 누구도 완전히 AI 활용을 포기하지는 않았다. 이들은 단점 속에서도 장점을 찾을 수 있었으며, 장점 극대화를 위해 노력을 기울였다.
둘째, 보고된 문제 대다수는 AI 버전의 ‘잘못된 의사소통’으로 인한 결과였다. 이는 규칙 및 지식 기반을 활용해 추론을 수행하는 대부분의 AI 구현 핵심에 있는 소프트웨어 도구 ‘추론 엔진(inference engine)’ 고안 시 발생한 인간 실수(human errors)로 인한 결과였다. 이러한 도구 개발자들은 이와 같은 문제에 주목하고 해결을 위해 노력하고 있다.
AI 운영 도구의 예비 사용자로서 어떻게 AI를 최대한 활용할 수 있을까? 필자와 이야기를 나눴던 사용자가 몇 가지 팁을 제시했다.
1. AI에 적합한 부분 미션을 찾는다. AI 미션이 광범위할수록 필요시 운영 전문가에게 핸드오프를 지원하는 것이 더 어려워지며 AI 도구가 제공하는 평가 혹은 수행하고자 하는 단계를 검증하는 것 또한 마찬가지다. 네트워크의 일부는 AI의 도움으로 거의 확실하게 관리될 수 있으나 현재의 기술 수준으로는 모든 것을 관리하기가 상당히 어려울 수 있다. 또한 미션을 좁힐 경우, 제안이 아닌 실행을 하는 ‘폐쇄 루프(closed-loop)’ 기술 활용을 가능케 한다. 이러한 기술을 사용하는 사용자의 거의 80%가 제한된 미션을 위해 이와 같이 한다.
2. 시장에 출시된 지 최소 9~12개월이 지난 AI 패키지를 선택한다. 이 정도의 기간이면 초기의 심각한 문제가 발견 및 해결되기에 충분한 시간이다. 이와 같이 할 수 없을 경우, 6개월 간 사내 평가판을 활용해 AI 프로세스를 기존 운영 도구와 병행해 서로 비교해본다. 대부분의 사용자는 설치한 기간이 오래 지난 패키지의 경우에도 이러한 평가판을 권장한다. AI가 운영 관행을 변화시키고 상황 인식 문제를 줄이는 방식에 조직이 익숙해지는 데 기여하기 때문이다.
3. AI 도구 및 공급업체를 체계적으로 평가한다. 사용자의 AI 도구 만족도는 90% 이상에서 15% 이하까지 다양하다. 일부 사용자가 선호하는 도구는 다른 사용자로부터 최악의 점수를 받기도 한다. AI 기능은 다양하며, 신중한 평가가 필요하다는 점은 분명하다. 유사한 요구 사항을 가진 타 사용자가 추천했더라도 무조건 수용해서는 안 된다.
4. AI 극단주의를 조심한다. 마지막 요점은 간단하다. AI가 하는 일은 인간 프로세스를 인간 개입 없이 적용하는 것이라고 단순화할 수 있다. AI는 ‘인지’하거나 ‘사고’하지 않는다. ‘주의’하지도 않는다. AI의 오류를 피하는 것은 인간의 오류를 피하는 것과 상당히 유사하다. 인간 지능이 AI의 목표라면 AI의 위험은 인간의 위험과 같다.
AI가 초래하는 가장 큰 위험은 AI가 과도하게 강력해지는 데 있지 않다. AI가 인간보다 더 우수하다고 믿어 인간 프로세스라면 적용했을 통제를 적용하지 않는 데 있다. 따라서 문명의 종말을 막고 싶다면, 떨어지는 소행성을 계속 피하고 선크림을 충분히 바르며 팬데믹을 대비한 피난처를 살펴볼 일이다. 인류가 향후 직면할 가능성이 가장 높은 위협이 AI는 아닐 것이다.
* Tom Nolle은 美 전략 컨설팅 회사 CIMI 코퍼레이션(CIMI Corporation)의 사장이다. dl-ciokorea@foundryco.com