오픈AI의 생성형 AI 챗봇인 챗GPT에 음성 인식 기능과 이미지 분석 기능이 추가된다. 아직은 영어만 지원되지만, 다른 언어 번역 기능이 추가될지 여부에도 관심이 쏠린다.
오픈AI가 지난 25일 공식 홈페이지를 통해 “챗GPT는 이제 보고, 듣고, 말할 수 있다”라며, 음성과 이미지 인식 기능을 추가해 일상에서 더 다양한 방법으로 챗GPT를 사용할 수 있도록 한다고 밝혔다.
챗GPT는 그동안 프롬프트(명령어)를 대화창에 입력하는 방식으로 사용할 수 있었다. 앞으로는 애플의 시리(Siri), 구글 어시스턴트(Google Assistant)처럼 AI 비서로 활용 가능하다. 일반적인 AI 비서가 음성 명령을 실행하는 기능에 집중한다면, 챗GPT는 음성을 통한 대화에 초점을 맞췄다.
챗GPT 음성 기능은 유명 성우들과 협력해 총 5가지 목소리로 제공된다. 몇 초의 음성 샘플링을 통해 사람과 유사한 목소리를 생성하는 새 음성 변환 모델을 사용하며, 오픈소스 음성 인식 시스템인 위스퍼(Whisper)를 통해 사용자가 말한 내용을 텍스트로 변환한다.
음성 인식 기능은 향후 2주 내에 챗GPT 플러스 및 엔터프라이즈 유료 구독자들에게 제공된다. 이후 모든 사용자가 이용할 수 있도록 업데이트할 예정이다. iOS 및 안드로이드에서 설정을 통해 사용할 수 있다.
챗GPT 음성 언어는 현재까지는 영어만 지원된다. 다만 음원 스트리밍 기업 스포티파이(Spotify)는 이날 오픈AI와 협업을 소개하며, 팟캐스트 진행자의 음성을 다른 언어로 바꿀 수 있는 오픈AI의 새 음성 번역 기술을 도입한다고 밝혔다. 이러한 기능이 챗GPT에도 활용될 경우 다양한 언어 사용이 가능해질 것으로 예상되지만, 오픈AI 측은 구체적인 계획을 언급하지 않았다.
음성 인식과 함께 챗GPT에 추가된 이미지 인식 기능도 주목할 만하다. 사용자가 대화창에 이미지를 올린 뒤 질문을 하면 챗GPT는 이를 분석해 답변을 제공한다.
오픈AI는 이미지 인식 기능에 대해 “그릴이 작동하지 않는 이유를 묻거나, 냉장고의 내용물을 살펴보며 식단을 계획하고, 복잡한 그래프를 분석해 업무 관련 데이터를 확인할 수 있다. 이미지 특정 부분에 집중할 수도 있는데, 모바일 앱의 그리기 도구를 사용해 강조 표시하면 된다”라고 설명했다. 이미지 인식 기능은 모든 플랫폼에서 이용 가능하다. yuseong_kim@idg.co.kr