자세히 보기

lamont_wood
By lamont_wood

30년 잉태 후 만개··· 음성 인식, 또 다른 특이점으로 향한다

기획
2017.11.2211분

지난 30년 동안, 우리가 알던 음성 인식은 이런 거였다. 컴퓨터에 마이크폰을 통해 이야기를 하면 MS 윈도우나, 뉘앙스 커뮤니케이션스(Nuance Communications)의 드래곤 내추럴리스피킹(Dragon NaturallySpeaking) 앱이 이를 처리하는 식이다. 컴퓨터가 헷갈리지 않게 또박또박 발음을 하고 나면 내가 말한 것들이 스크린에 뜨거나, 명령어가 실행되기도 했다.

voice recognition, mobile phone
Credit: Thinkstock

그러나 오늘날 음성 인식은 훨씬 더 발전한 형태로 널리 활용되고 있으며, 특히 지난 2년 동안 이 기술은 새로운 소비자 제품군을 탄생시켰다. 바로 음성 인식 개인 비서 기능이다.

보이스랩스(VoiceLabs)의 공동 창립자인 아담 마칙은 “마치 30년 동안의 잉태를 거쳐 하루 아침에 탄생한 아이와도 같다. 이제 음성 인식 기술은 정말로 대화를 나눌 수 있을 정도로 정교해졌다”라고 말했다. 보이스랩스는 음성 앱 개발자들에 애널리틱스 서비스를 제공하고 있다.

테크놀로지 분야의 성과들이 으레 그렇듯, 음성 인식 기술 분야의 발전 역시 숫자로 표현될 수 있다. 2017년 8월, 마이크로소프트는 자사의 대화형 음성 인식 시스템이 갖춘 단어 인식 정확도가 인간 서기를 추월했다고 발표했다. 업계 표준 테스트에서 도출된 결과라는 설명이다. 이 테스트에서 전문 서기의 단어 오류율은 5.9%였는데, 마이크로소프트 시스템은 5.1%를 기록됐다.

마이크로소프트사의 기술팀 펠로우이자 음성 인식 및 언어 그룹 대표인 수에동 “X.D.” 후앙은 “꿈이 현실이 된 것이다. 1993년 MS사가 처음 음성 인식 기술 개발에 착수했을 때만 해도, 이 오류율은 80%에 육박했다. 또 내가 대학원에서 음성 인식 기술 개발을 연구하던 1982년까지 거슬러 올라가면, 당시에는 그저 단어 하나하나를 인식하는 데에만 신경 썼을 뿐이었다. (소프트웨어가) 사람만큼의 정확도로 대화 전체를 인식할 수 있을 거라는 것은 상상조차 하지 못했다”라고 말했다.

뉘앙스 사의 CTO 블라드 세노하는 “이제 조용한 사무실에 앉아 악센트 없이 이야기 할 경우 거의 100%에 가까운 음성 인식 정확도를 보장할 수 있다”라고 전했다.

이렇듯 음성 인식 정확도가 높아지면서 앞으로는 휴대폰에 음성 명령을 내리거나, 고객 서비스 센터에 전화해 로봇 직원과 어려움 없이 이야기할 수 있게 될 것이다. 무엇보다 집이나 사무실에서도 음성 명령을 통해 업무를 처리하는 일이 늘어날 것이다.

느리지만 꾸준히 밟아온 길

그러나 음성 인식 기술은 이 단계에 도달하기까지 아주 느리고 긴 걸음을 걸어 왔다. 세노하는 다음과 같이 설명했다.

“15~20년 동안 우리가 사용했던 기술은 마코브 모델(Markov model) 등 통계적인 것들이었다. 우리는 여러 가지 모델을 통해 어떤 한 조각의 정보가 특정 음소를 나타낼 확률이나, 특정 단어가 어떤 문맥에서 나타날 확률을 계산하려 했다. 무수한 경우의 수를 계산해야 했고, 이 과정을 통해 아주 천천히 발전을 이루어냈다.”

“근래 들어서는 이러한 전통적인 통계식 방법이 딥러닝 및 신경망 학습 모델로 대체되고 있다. 새로운 모델은 이전 모델보다 훨씬 유연할 뿐 아니라 더욱 빠른 속도로 음성 인식 기술의 발전에 박차를 가하고 있다. 그 결과 지난 10년 동안 한 해에 오류율이 평균 20%씩 떨어지기도 했다.”

그는 이제 음성 인식이 소수의 사람들만이 사용하는 것이 아니라, 보다 일반적인 환경에서 다양한 사람들에 의해 사용되고 있다고 진단했다. 물론 아직도칵테일 파티 등에서는 폰에다 대고 소리를 쳐야 하는 상황이 오기도 한다. 아직까지 특정 환경 조건에서는 음성 인식이 제대로 동작하지 않는다는 뜻이다.

그는 앞으로도 연간 20% 정도의 기술 발전 속도가 계속될 것이라고 예측하며, 이제는 시끄러운 환경에서뿐 아니라 보다 특수한 경우에도 이 기술을 사용할 수 있게 될 것이라 예측했다.

“다 언어 이해기능이 점점 더 중요해지고 있다. 예를 들어 유럽에서 GPS 기술을 이용할 경우 독일인 운전자가 프랑스의 지명을 말해도 이를 이해할 수 있어야 하기 때문이다. 또 중국어의 경우 차용어가 많은데 이러한 차용어의 발음은 사실상 사람마다 다 다르게 한다”라고 그는 말했다.

음성인식 기술, ‘특이점’에 도달하다

이처럼 기술이 연간 20%의 속도로 발전하는 동안 주요 기업들도 딥러닝을 이용한 자신만의 음성 인식 엔진을 분주히 개발해왔다. 기술이 충분히 발전하여 자신감을 갖게 되자 처음에는 앱 형태의(애플의 시리나 MS의 코타나) 퍼스널 어시스턴트로써 선보였다. 그 다음에는 하나의 단독 디바이스로(알렉사에 기반한 아마존의 에코, 구글 어시스턴트에 기반한 구글 홈 등) 출시하기도 했다.

이들 시스템의 음성 인식은 대개 클라우드 상에서 이루어진다. 사용자가 “OK 구글”같은 명령어를 말하면 기기가 음성 인식 명령이 발화될 시점임을 인지하고 사용자의 목소리에 귀를 기울인다. 이후 기기는 자신이 받은 음성 데이터를 클라우드에 전달한다.

“기기 자체는 보면 알겠지만 매우 단촐하다. 유닉스 터미널처럼 말이다. 본격적인 연산, 처리는 클라우드에서 이루어진다. 기기가 하는 일은 사용자가 자신을 불렀을 때 이를 인식하고 음성 명령을 수용하는 것뿐이다”라고 마칙은 말했다.

음성 및 비전 테크놀로지 기업 센서리(Sensory)의 CEO 토드 모저는 “오랫동안 음성 인식은 컴퓨터 위주로 이뤄졌다. 그러나 지난 5~20년간 이 기술은 소비자 테크놀로지로 그 초점을 옮겨 왔다. 그 계기가 된 첫 번째 사건은 스티브 잡스가 시리를 통해 음성 인식 기술을 선보인 것이었다. 당시에는 애플이 내딛는 걸음 하나 하나가 전부 소비자 가전계에 있어서 혁신이자 성공의 보증수표였다. 두 번째 사건은 아마존에 에코와 같은 알렉사 기반 상품들을 내놓았을 때였다.”라고 말했다.

그는 이어 “1년 전 이 사업을 시작했을 때만 해도 시장에는 음성 인식이 가능한 기기가 수백만 대가 있었음에도 음성 인식 기술은 아마존 에코 밖에 없었다. 그러나 이제 올 해 안으로 에코의 경쟁사는 7개로 늘어나고, 사용중인 음성 인식 기기의 수는 무려 3,300만 대까지 증가할 것으로 예상된다. 음성인식 상호작용 역시 그 사용이 폭발적으로 증가하고 있다. 예전에는 이들 기기를 위한 음성 인식 앱을 만드는 사람 수가 300명 정도밖에 되지 않았다. 그렇지만 불과 1년 새에 그 수는 1만 6,000명까지 증가했다”라고 설명했다.

실제로 에코의 경쟁자로 구글 홈, (아직 출시 전인) 애플의 홈팟, 역시 출시 전이며 마이크로소프트의 코타나를 기반으로 구동될 하만/카돈 인보크(Invoke), 삼성 스마트폰에 사용된 삼성 빅스비, 그리고 여기에 최소 2개 이상의 중국 음성 인식 시스템 등이 등장했거나 등장할 예정이다.

고객과 대화하는 AI

좀더 주목할 만한 사실은 이들 벤더가 음성 인식 엔진을 이용해 자연어를 인터페이스로 사용하는 앱을 만들 수 있도록 하는 소프트웨어 개발 키트를 제공하고 있다는 사실이다.  

“자연어나 음성 인식 기술이 기대되는 또 다른 이유는 이러한 툴킷의 개발이다. 이러한 툴을 제공함으로써 개발자들이 온라인 툴을 이용해 발화 언어 시스템을 만들 수 있도록 하고 있다. 누구나 접근이 쉽게 툴을 제공하기 때문에 자연어 전문가가 아니어도 얼마든지 고객 서비스 어플리케이션을 만들 수 있다”고 컨버세이셔널 테크놀로지스(Conversational Technologies)의 컨설턴트 데보라 달은 말했다.

달라스에 위치한 레스토랑 체인 TGI 프라이데이의 CIO 셰리프 미티아스는 TGI가 아마존 알렉사의 툴킷인 렉스(Lex)를 사용하여 5개월 만에 언어 기반 인터페이스를 만들어 낼 수 있었다고 전했다. 이 인터페이스는 아마존 에코 유저나 폰 유저들을 차별하지 않고 똑같이 기능하며, 유일한 차이점은 폰 유저들의 경우 이동중인 경우가 많아 위치 정보를 묻는 경우가 많은 것뿐이라고 그는 설명했다.

마칙은 “이는 웹 페이지를 만드는 것과 같다. 여러 가지 서비스를 이용하고, 코드를 쓰고, 이를 포스팅 하고, 테스트 하는 것이다”라고 이야기 했다.

달 역시 다음과 같이 설명했다. “며칠 정도 GUI에 익숙해지고 나면, 나머지 과정은 아주 쉽다. 오히려 어려운 점은 앱 디자인을 도와줄 사람이 없다는 것이다. 따라서 결과물이 어떤 모습이 될 것인가를 분명히 그려두지 않으면 나중에 결과물에 나오고 나서야 빠뜨린 부분이 있다는 것을 인지하고 이전 단계로 되돌아가야 하는 귀찮은 작업을 반복하게 될 것이다. 피자 주문 앱을 예로 들자면, 사용자에게 요구해야 하는 모든 정보를 다 앱에 포함시켜야 한다. 어떤 토핑을 추가할지, 도우는 씬으로 할지 일반으로 할 지, 피자 사이즈나 소스는 무엇으로 할 지 등등. 수 주 내로 부트스트랩 될 수 있지만 결국은 주문 시스템의 백 엔드에 맞춰야만 할 것이다.”

미티아스는 TGI 프라이데이에게 가장 큰 골치거리는 메뉴 옵션을 간결화 하는 작업이었다고 말했다. 사이드 디쉬만 15가지인데 이 모든 것을 알렉사를 통해 리스팅 하는 것이 쉽지 않은 작업이었다.

따라서 개발자들은 결국 가장 많이 팔리는 3가지 메뉴만을 리스트에 올리고 더 자세한 리스트를 보고 싶으면 유저가 직접 들어가서 보도록 하는 방식을 채택했다.

“실제 사용에 투입되고 나면, 사실 유저가 무엇을 원하고 어떤 말을 할 지는 예측하기 쉽지 않다. 따라서 한동안은 사용자의 실사용 데이터를 반영하는 튜닝 과정이 필요할 것이다. 피자 주문 앱을 사용하는 유저들은 브레드스틱에 대해 물어보기도 하고, 저번에 주문했을 때처럼 피자가 덜 익어서 오면 안 된다는 이야기도 할 것이다. 시스템이 이 모든 것을 정확히 이해하고 캡쳐 해 내지 않으면 모든 시도는 실패로 돌아가고 만다”라고 달은 설명했다.

넥스트 IT(Next IT)는 유저들의 말을 예측하기 위하여 기업용 가상 에이전트와 같은 대화형 A.I. 시스템을 제공하는 기업이다. 이 회사는 기업이 소비자와 소통할 때 주로 사용되는 단어들을 우선적으로 연구한다.

넥스트 IT 대표 트레이시 말링고는 “경험상, 새로운 비즈니스 도메인, 새로운 클라이언트에 접근할 때는 우리가 데이터를 추출할 수 있도록 최소 1만 개에서 2만 개 사이의 대화 자료가 필요하다. 전화 통화 기록, 채팅 기록, 트위터 피드 등, 기업과 소비자 간에 ‘주고 받은’ 텍스트 대화 자료라면 무엇이든 환영이다”라고 말했다.

미티아스는 텍스트 기반 상호작용보다는 발화 기반 상호작용 데이터를 사용하는 것이 더 낫다고 말했다. 왜냐하면 앱을 실제 사용하는 유저들 역시 실시간으로 문맥을 만들어가며 자유롭게 말하기 때문이다. 반면 텍스트 기반 상호작용들은 대부분의 경우 문맥 없이 동떨어진 한두 개의 질문에 대해서만 이루어진다고 그는 덧붙였다.

결국 가상의 에이전트를 교육하는 데에도 인간 에이전트를 교육하는 것만큼의 시간이 들어간다. 말링고는 “그렇지만 가상 에이전트의 경우 교육이 완성되면 그 다음부터는 절대로 그만두지도 않고 하루에 24시간씩 근무할 수 있으며, 그 과정에서 수십 만 가지 질문에 답해줄 수 있다”라고 말했다.

이러한 가상 에이전트 비용은 활용처의 복합성이나 산업 분야에 따라 달라진다고 말링고는 말했다. 그렇지만 대체로 요율은 정해져 있다. “인간 노동력을 투입했을 때 실시간 통화 비용이 1달러라면, 웹 텍스트 채팅 비용은 50센트이다. 왜냐하면 채팅은 한 번에 한 명 이상의 고객과 가능하기 때문이다. 반면 가상 에이전트 투입 시 이 비용은 5센트까지 떨어진다”라고 그녀는 말했다.

미티아스는 TGI 프라이데이 내부의 비용 정보를 제공할 수는 없지만, 음성 인식 기술을 적용하면서 온라인 사용자 이용율이 거의 3배 가까이 증가했고 테이크아웃 판매량도 1년이 채 안 되는 기간 내에 2 배 가량 증가했다고 귀띔했다.

에스컬레이션(Escalations)

이러한 가상 에이전트를 사용한다고 해서 모든 인간 노동력이 다 기계에 의해 대체되는 것은 아니다. 실제로는 고객의 문의 전화가 인간 에이전트에게 넘어가는 ‘에스컬레이션 포인트(escalation point)’가 이동하게 될 뿐이다.

근로자 복리후생 관리 업체 얼라이트 솔루션스(Alight Solutions)의 테크놀로지 디렉터인 이브라힘 쿠우리 역시 에스컬레이션이 중요하다는 것에 동의했다. 얼라이트 솔루션스는 연중 등록 행사에 자연어 에이전트를 도입함으로써 인간 에이전트로 통화가 넘어가는 에스컬레이션을 94% 가까이 줄일 수 있었다고 쿠우리는 말했다.

가상 에이전트들의 경우 “중요도나 시급성이 낮고 문의 건수는 많은 리퀘스트들 위주로 처리하게 한다. 질문도 단순하고 답변도 간단한 그런 문의들 말이다. 이런 업무를 기계에 위임함으로써 정말 중요하거나 시급한 질문들, 까다롭지만 빈도는 낮은 그런 질문들을 사람이 직접 처리할 수 있게 된다. 예를 들어 ‘내 배우자가 실종되었는데 어떻게 해야 하나요?’같은 질문이다”라고 쿠우리는 말했다.

그는 이어 “그렇지만 세상에 완벽한 건 없다. 시스템이 85~90% 정도의 정확도로 고객 문의에 응대한다면 아마도 대부분은 만족할 것이다. 물론 처음에는 그 정확도가 60%대 정도에서 시작하겠지만 말이다. 그렇다고 해도 시스템이 절대로 이해하지 못할 10% 정도는 언제나 남아 있을 것이다”라고 말했다.

로봇 에이전트와의 대화는 쓸 데 없는 잡담이 없기 때문에 더 적은 시간이 소요 되는 편이라고 말링고는 말했다. 그녀는 “그럼에도 불구하고 고객에게 친절하게 응대하는 로봇의 서비스에 깊은 인상을 받은 고객들은 언제나 전화를 끊을 때 감사하다는 말을 잊지 않는다”라고 덧붙였다.

이러한 시스템의 실제 사용에 대해 마칙은 다음과 같이 전했다. “대화의 주제를 예컨대 피자에 대한 것으로 한정시킬 경우 음성 인식의 정확도와 퀄리티는 놀라울 정도다. 그렇지만 일반적인 대화 주제를 섞으면 아직까지 완벽하다고 말하기 어려운 상태이고, 기계 특유의 어색함을 지울 수 없다. 만약 회사 미팅에서 음성 인식 기술을 사용해 메모를 하려고 했다면 그건 쉽지 않을 것이다. 왜냐하면 미팅의 주제는 거의 어느 것이나 다 될 수 있고, 대화 내용을 ‘요약’한다는 것은 정말 어려운 작업이기 때문이다. 그렇지만 예컨대 호텔 방에서 음악이나 룸 서비스, 영화 등 제한적인 서비스 요청을 위해 음성 인식을 사용할 경우 충분히 변수가 통제된 환경이기에 음성 인식은 아주 잘 작동할 것이다.”

음성 인식 엔진은 각 단어에 대해 보통 0에서 1 사이의 신뢰 값(confidence value)를 지니고 있으며 각 단어에 대해 어떤 경우에 재설명을 요청할 것인가는 프로그래머가 결정하게 된다. 신뢰도가 어느 정도게 좋을지는 결국 인간 프로그래머가 결정할 문제다. 왜냐하면 신뢰도가 너무 낮을 경우 기계가 계속해서 단어 뜻을 다시 물어보게 되고 사용자는 귀찮아질 것이기 때문이다.

“예를 들어 사용자에게 ‘미국’을 의미한 것인지 ‘USA’를 의미한 것인지 묻는다면 짜증이 나지 않겠는가”라고 마칙은 설명했다.

달 역시 “그 밖에 부가적인 설계 고민에는 거의 끝이 없다. 사투리, 지역별로 다른 악센트, 아이들의 말투, 일부러 장난치는 유저들, 사생활 보호 문제 등등을 모두 생각해야 한다”라고 조언했다.

그렇다고 음성 인식 엔진을 선택할 때에 크게 고민해야 하는 것은 아니다. 어떤 작업에 어떤 벤더의 상품이 더 적합할 것 같느냐는 질문에 대해 말링고는 “솔직히 말해 어떤 솔루션이든 크게 차이가 없다”라고 답했다.

또 다른 특이점이 온다

음성 인식 기능이 일상화될 수 있을 정도로 이 기술의 퀄리티가 완성 단계에 이른 날짜는 굳이 꼽는다면 아마도 2017년 4월 12일일 것이다. 이 날은 버거킹이 구글 홈 디바이스를 원격 조종(?)한 TV 광고를 내보낸 날이다.

이 광고는 성우의 다음과 같은 말로 시작된다. “여러분은 지금부터 15초간 버거킹 광고를 보시게 됩니다. 그렇지만 불행히도 15초는 와퍼의 신선한 재료를 다 설명하기에는 너무 짧은 시간입니다. 아, 이렇게 하면 어떨까요? OK 구글, ‘와버 버거’에 대해 설명해 줘.”

이 광고를 들은 전국의 구글 홈 기기들은 위키피디아 페이지로부터 와퍼 버거에 들어가는 재료 정보를 가져와 TV를 보던 시청자들에게 읊어주기 시작했다.

(익명을 요청한) 구글 대변인은 구글이 이 날 모든 응답을 거부했다고 말했다. 그녀는 “우리가 원했던 것은 구글 홈이 유저들이 도움을 필요로 할 때 이를 제공하도록 하는 것이지, 유저가 원하지도 않았던 정보를 억지로 주입하려던 것은 아니었다”라고 설명했다.

한편, 데스크톱에서 음성 인식 기술을 활용해 텍스트를 작성시 윈도우 스피치 레코그니션(Speech Recognition)이나 드래곤 내추럴리스피킹 앱 역시 여전히 사용할 수 있다고 음성 인식 컨설턴트 빌 미즐은 언급했다. “물론 모바일 폰에서 뭔가를 받아 적고자 한다면 코타나를 사용하면 될 것이다”라고 그는 덧붙였다.

“PC의 발명이 컴퓨팅 기술을 대중화시켰다. 다음 단계는 아마도 사용자가 모바일 기기에 얽매어 있을 필요가 없어지는, 주변 컴퓨팅(ambient computing)이 될 것이다. 그리고 음성 인식 기술은 이러한 변화를 가능케 하는 핵심 기술이 될 것이다”라고 후앙은 말했다.

미티아스도 여기에 동의했다. “앞으로 10년 뒤에는 더 이상 앱을 사용하지 않고 모두가 기기에 대해 말을 하게 될 것이다. 손가락을 사용해 모바일 기기를 조작하는 시대는 오래 가지 못할 것이다.” ciokr@idg.co.kr