정서 분석(sentiment analysis)이 기업에서 가치를 입증해가고 있다. 이 분석 기법은 커뮤니케이션 내의 감성적, 정서적 의미를 판단할 수 있게 해준다. 그리고 회의 음성 전사(meeting transcription)로부터 고객 서비스 및 반응 분석에 이르기까지 다양한 응용 분야에서 관심을 끌고 있다.
오늘날 정서 분석은 주로 지도 또는 반-지도(semi-supervised) ML 알고리즘을 이용한다. 오늘날 대형 클라우드 사업자는 모두 정서 분석 툴을 제공하고 있으며, 고객 지원 플랫폼 및 마케팅 분야의 주요 벤더들도 대부분이 이를 지원한다. 대화형 AI 사업자의 제품에도 정서 분석 기능이 포함되어 있다.
그러나 정서 분석을 최대한 활용하려면 기술과 과학의 절묘한 조합이 필요하다. 여기서는 정서 분석을 효과적으로 이용하고 있는 몇몇 사례를 살펴본다.
음성 전사 시 중요성 평가
대부분의 가상 회의 플랫폼은 음성 전사 서비스를 제공한다. 실제로, 음성 인식은 마이크로소프트와 구글이 제공하는 다수의 제품에 내장되어 있다. 줌 역시 이번 가을 실시간 음성 전사 기능을 제공할 계획이며, 지금도 오터 AI(Otter AI) 등의 서드파티 서비스를 이용할 수 있는 상태다.
그러나 컴퓨터 음성 전사는 인간에 의한 녹취와 비교할 때 조악한 수준이다. 중요한 대화와 잡담을 식별하고, 다음 단계가 무엇인지, 누가 무엇에 열중하는 지를 파악하는 데에는 인간의 판단이 필요하기 때문이다.
이 격차를 극복하기 위해 음성 전사 업체인 피클(Pickle)이 정서 분석에 주목하고 있다. 피클 플랫폼은 음성 전사 기능을 위해 음성-문장 API인 어셈블리AI(AssemblyAI)를 이용한다. 피클의 CEO이자 설립자인 버치 이브는 정서 분석을 수행할 수 있는 오픈소스 도구들이 몇몇 있지만, 이들은 특정 핵심어를 식별하는 데 집중하는 경향이 있다고 말했다. 이 때문에 피클은 자체 정서 분석 ML 모델을 처음부터 구축하기로 결정했다.
피클의 접근법은 지도 학습 모델과 비지도 학습 분류 알고리즘을 조합해서 사용한다. 지도 학습 부분의 경우, 인간이 (처음에는 피클 직원) 대화의 부분들을 직접 명명하고 분류했다. 여기에는 일상적인 잡담과 중요한 대화를 구분하는 것이 포함된다. 이들은 또한 강한 긍정 또는 부정 감성을 가진 대화 부분을 표시했다. 회사가 성장하면서 피클은 스케일 AI(Scale AI)의 활용 비중을 늘렸다.
이브는 훈련 데이터 세트가 수백만 개의 대화로 증가했고, 1세대 모델은 분석되는 대화 유형에 따라 정확도 수준이 77% ~ 83% 범위였다고 밝혔다.
그는 “우리는 품질 관리를 한다. 무작위로 대화를 지정해서 이를 수동으로 검토한 뒤 모델을 이중 검사한다”면서 “무언가가 잘못된 경우, 모델로 돌아가 어디에 불합치가 있는 지 파악하고, 데이터를 조율하거나 아니라면 데이터 세트를 교환한다”라고 말했다.
그는 정확도가 현재 93% ~94%라고 말했다. 이 회사는 1월부터 줌 대화 데이터에 집중함으로써 편차를 더 줄였다. 그는 “대부분의 줌 대화는 비슷한 유형이어서 데이터가 더 일관적이다”면서 “사소한 대화가 오고 간 후 비즈니스 대화가 이어지는 식이다”라고 말했다.
정서 분석이 연관된 AI 프로젝트의 성공의 열쇠는 계속 집중하는 것이라고 이브는 말했다.
그는 “데이터가 일관성 있게 반환되기 시작하고, 다른 활용처로의 확산을 타진하기 시작할 때 흥분된다”면서 “우리는 두어 차례 함정에 빠졌다. 그러나 성공으로 가는 최고의 길은 감성 하나에만 묵묵히 집중하는 것이다”라고 말했다.
사용자 후기 분석에서 활용
언스트 앤 영 테크놀로지 컨설팅(Ernst & Young Technology Consulting)의 사장인 존 두보이스는 정서 분석의 실용적 활용 역사가 15년 전으로 거슬러 올라간다고 말했다. 당시에는 ‘워드 백(bag of words)’ 접근법이 주류였다. 이는 대화, 소셜 미디어 게시물, 뉴스 기사, 제품 리뷰에 특정 단어가 얼마나 자주 출현하는지를 단순히 계산했다.
그는 “당시의 결과는 ‘좋다’ 아니면 ‘나쁘다’였다”면서 “그 이후 이는 크게 변화했다”라고 말했다.
이제 머신러닝(ML)이 단어에 담긴 감성을 정확히 파악하는 데 도움을 주고 있다. 정서 분석 ML 모델이 영향력을 발휘하는 대표적인 분야는 제품 리뷰이다. 리뷰는 ‘대단하다’, ‘끔찍하다’ 등의 단어를 사용하지 않으면서 극도로 긍정적이거나 부정적일 수 있고, 아니라면 이들 단어는 반어적으로 쓰일 수 있다. 예를 들어 다음의 리뷰를 보자.
“이 드레스가 환상적일 것이라고 진심으로 생각했다. 사진이 아름다웠고, 도착한 포장은 완벽했다. 그 후 이를 입어 보았다. 유쾌한 기린처럼 보였다. 그러나 최소한 내 강아지는 이 옷 위에서 자는 것을 좋아한다. 강아지가 행복해서 나도 행복하다.”
이 리뷰에는 긍정적인 단어가 많지만 그런데도 별 등급이 낮다. 등급이 사실 감성 점수이다. 제품에 대한 고객의 전반적인 생각이다. ML 시스템이 수백만 개의 리뷰를 읽고 구매자가 부여한 등급과 대조해가면서 단어에 담긴 진짜 감성을 이해하는 능력이 높아진다.
최근 두보이스는 한 자동차 회사의 의뢰를 받아 모든 일류 자동차 제조업체의 차량 특성에 연관된 감성을 분석하는 프로젝트를 수행했다. 예를 들어 소비자는 한 모델의 컵 홀더를 좋아하지만 경쟁 업체의 컵 홀더를 좋아하지 않을 수 있다. 아니라면 고객 회사의 인테리어보다 경쟁 업체의 인테리어를 더 좋아할 수 있다.
이러한 정서 분석 활용례는 소비자가 고객 회사의 제품에 대해 좋아하는 것, 경쟁자에 비해 뒤쳐진 부분을 고객 회사가 정확히 판단할 수 있게 해주었다. 결과적으로 보다 우수한 광고를 위한 동력이 되었다. 두보이스는 “각종 자동차 구매 및 평가 공간들에서 우리의 강점과 상대의 약점을 바탕으로 광고를 할 수 있다”라고 말했다.
그는 “봄, 여름, 가을 판매 행사에서 이렇게 했더니 클릭 비율이 15% 증가했고, 전환 비율이 4 ~6% 증가했다. 그리고 자동차 업계의 판매 행사에서 4%는 대단히 큰 규모이다”라고 말했다.
이런 종류의 특수 해법을 위해 감성을 분석하는 AI 가 매우 많다고 그는 말했다. 그러나 정서 분석은 부서 수준을 넘어 전략 무기로서도 가치 있을 수 있다.
그는 “영업 부서가 제품 목록을 갱신하는 데 쓰일 수 있다”면서 “상품 기획 부서가 사이트의 정보 구조를 개선하는 데 쓰일 수 있다. R&D 부서에 의해 사용될 수 있다”라고 말했다.
기술의 진가가 증명되었다면 IT 리더들은 종합 사업 전략의 일환으로 이로부터 혜택을 받는 업무 관계자 집단으로 기술을 확대해야 한다.
데이터 스토어로부터 가치 추출
스토리지가 저렴해짐에 따라 기업들은 방대한 양의 비구조적 데이터를 저장하기 시작했다. 예를 들어 고객 서비스 통화, 지원 요청 이메일, 온라인 채팅 등의 각종 데이터다. 너더리(Nerdery)의 혁신 부사장인 데렉 친은 “모두가 빅데이터에 대해 이야기하고 데이터를 저장해왔지만, 이로부터 가치를 추출해 이용한 사람은 거의 없었다”라고 말했다.
그는 정서 분석이 대규모로 고객 통찰을 포착하는 데 일조할 수 있다고 말했다. 예를 들어 고객은 판매 직원이 무작정 구매를 유도하면 짜증이 날 수 있다. 반면 정서 분석은 효과적인 구매 유도 시나리오에 대한 놀라운 통찰을 도출할 수 있다고 그는 말했다.
그는 “차량에 데이터 및 와이파이 접속 기능이 있다고 하자. 직원이 데이터 용량이 거의 소진되었음을 알 수 있고, 데이터 용량을 더 많이 구매해 추가 데이터 요금을 피할 수 있는 선택지를 제시한다면, 사람들은 기분이 좋을 것이다. 그러나 아무 생각 없이 지금 한 달에 1기가바이트를 계약하셨는데 한 달에 2 기가 바이트 특별 요금이 있다고 말한다면 사람들은 관심이 없을 것이다”라고 말했다.
그는 정서 분석을 제대로 하려면 그 잠재력과 한계를 이해하는 것이 핵심이고, 아울러 이에 시간을 투입할 의지가 있어야 한다고 말했다. 그는 “음성-문장 환경에서는 냉소적 언어를 포착하지 못하는 상황이 있을 것이다”면서 “이러한 것들은 표본 크기가 커지고 AI가 영리해지면 시간이 가면서 저절로 해결된다”라고 말했다.
이는 초기 데이터에 섣불리 반응하는 것은 위험할 수 있다는 의미이기도 하다고 친 부사장은 말했다. 그러면서 “ML 모델이 스스로 훈련할 수 있도록 하고 충분한 표본 크기를 확보한 후 전략적인 장기 결정을 내려야 한다”라고 덧붙였다.
그러나 기업들이 지금 시작해야 한다고 경고다. 그는 “지금은 초창기에 불과하고, 이는 계속해서 정교해지고 강력해지고 있다. 경쟁 업체들이 이를 사용하기 시작하고 있을 것이다”면서 “지금은 불완전할 수밖에 없다. 이를 시도하고 실험하는 일을 시작하라”라고 말했다.
‘좋다, 나쁘다’의 초월
캡제미니의 AI 및 애널리틱스 부사장인 댄 시미온은 정서 분석이 명확하고 단순한 맥락에서는 이미 효과적이라고 전했다. 그는 “사실 ‘좋다’, ‘나쁘다’는 정서 분석의 출발점이다. 단 한층 복잡한 반응 유형으로 들어가면 모델을 향상시킬 수 있는 기회가 많아진다”라고 말했다.
예를 들어 사진이나 동영상을 보고 사람들이 기분이 좋은지, 나쁜지 판별하기 위해 정서 분석을 이용하고 싶다고 하자. 그는 “언론 및 엔터테인먼트 분야의 기업들은 사람들이 여러 쇼를 보면서 느끼는 감정을 이해하려 시도한다. 사람들이 흥미롭게 느끼는 쇼의 특정 부분이 어디인지 이해하려 하고 있다”라고 말했다.
이를 테면 이제 청중들의 반응으로 영상을 분석할 수 있다. 아니라면 집에서 웹캠 앞에 앉아 시청하는 사람들을 분석할 수도 있다. 전통적으로 반응을 평가하는 일은 수작업 프로세스였다. 그러나 인간의 평가는 주관적이라고 그는 말했다. 그러면서 “개관적인 무언가가 있어야 한다. 그래야 결과를 비교할 때 타당해지기 시작한다”라고 말했다.
이어서 그는 “그 후 확장의 문제가 있다”면서 “여러 쇼가 있다면 결국 동일한 프로세스를 따르면서 일관성을 갖추고 싶어한다. 이때가 기계를 사용하기 시작해야 할 시점이다”라고 말했다.
얼굴 표정과 함께 정서 분석 모델은 여전히 진화 초기 단계이며고, 모델의 정확성을 측정하는 방식은 아직도 명확하지 않다. 얼굴 표정의 감성을 분석하는 일이 초기의 과대 선전 단계를 넘어서고 나면 여러 과제가 기다리고 있을 것이다. 대표적으로 얼굴 표정의 미묘함이다. 그 후에야 기업들이 이를 구매하고 싶어할 것이라고 그는 진단했다.
시미온은 “그럼에도 불구하고 이런 유형의 해법이 꼭 필요한 기업에게, 특히 비용을 감당할 수 있고, 이를 경쟁 우위로 활용할 수 있는 대기업에게, 이는 투자 가치가 있다”라고 말했다. dl-ciokorea@foundryco.com