By 김유성

Senior Editor

‘이제 보고 듣고 말한다’… 챗GPT, 음성·이미지 인식 기능 추가

뉴스

2023.09.262분

오픈AI의 생성형 AI 챗봇인 챗GPT에 음성 인식 기능과 이미지 분석 기능이 추가된다. 아직은 영어만 지원되지만, 다른 언어 번역 기능이 추가될지 여부에도 관심이 쏠린다.

오픈AI가 지난 25일 공식 홈페이지를 통해 “챗GPT는 이제 보고, 듣고, 말할 수 있다”라며, 음성과 이미지 인식 기능을 추가해 일상에서 더 다양한 방법으로 챗GPT를 사용할 수 있도록 한다고 밝혔다.

챗GPT는 그동안 프롬프트(명령어)를 대화창에 입력하는 방식으로 사용할 수 있었다. 앞으로는 애플의 시리(Siri), 구글 어시스턴트(Google Assistant)처럼 AI 비서로 활용 가능하다. 일반적인 AI 비서가 음성 명령을 실행하는 기능에 집중한다면, 챗GPT는 음성을 통한 대화에 초점을 맞췄다.

챗GPT 음성 기능은 유명 성우들과 협력해 총 5가지 목소리로 제공된다. 몇 초의 음성 샘플링을 통해 사람과 유사한 목소리를 생성하는 새 음성 변환 모델을 사용하며, 오픈소스 음성 인식 시스템인 위스퍼(Whisper)를 통해 사용자가 말한 내용을 텍스트로 변환한다.

음성 인식 기능은 향후 2주 내에 챗GPT 플러스 및 엔터프라이즈 유료 구독자들에게 제공된다. 이후 모든 사용자가 이용할 수 있도록 업데이트할 예정이다. iOS 및 안드로이드에서 설정을 통해 사용할 수 있다.

챗GPT 음성 언어는 현재까지는 영어만 지원된다. 다만 음원 스트리밍 기업 스포티파이(Spotify)는 이날 오픈AI와 협업을 소개하며, 팟캐스트 진행자의 음성을 다른 언어로 바꿀 수 있는 오픈AI의 새 음성 번역 기술을 도입한다고 밝혔다. 이러한 기능이 챗GPT에도 활용될 경우 다양한 언어 사용이 가능해질 것으로 예상되지만, 오픈AI 측은 구체적인 계획을 언급하지 않았다.

음성 인식과 함께 챗GPT에 추가된 이미지 인식 기능도 주목할 만하다. 사용자가 대화창에 이미지를 올린 뒤 질문을 하면 챗GPT는 이를 분석해 답변을 제공한다.

오픈AI는 이미지 인식 기능에 대해 “그릴이 작동하지 않는 이유를 묻거나, 냉장고의 내용물을 살펴보며 식단을 계획하고, 복잡한 그래프를 분석해 업무 관련 데이터를 확인할 수 있다. 이미지 특정 부분에 집중할 수도 있는데, 모바일 앱의 그리기 도구를 사용해 강조 표시하면 된다”라고 설명했다. 이미지 인식 기능은 모든 플랫폼에서 이용 가능하다. yuseong_kim@idg.co.kr

By 김유성

Senior Editor

CIO 코리아 에디터로 국내외 IT 산업 콘텐츠의 기획 및 취재를 담당하고 있습니다. 디지털 전환, 클라우드, 보안, AI 등 최신 기술 트렌드 취재를 바탕으로 IT 리더를 위한 맞춤형 콘텐츠를 기획하며 심층 인터뷰, 트렌드 분석 등을 통해 다양한 정보를 전달하고 있습니다. 또한, 한국IDG가 주관하는 행사에 참여해 국내 IT 리더들이 통찰을 나눌 수 있는 장을 마련하고, 현장의 목소리를 반영하기 위해 힘쓰고 있습니다.

Africa

Americas

Asia

Europe

Oceania

토픽

About

정책

네트워크

자세히 보기

‘이제 보고 듣고 말한다’… 챗GPT, 음성·이미지 인식 기능 추가

오픈AI의 생성형 AI 챗봇인 챗GPT에 음성 인식 기능과 이미지 분석 기능이 추가된다. 아직은 영어만 지원되지만, 다른 언어 번역 기능이 추가될지 여부에도 관심이 쏠린다.

이 저자의 추가 콘텐츠

xAI 공동 창업자, 회사 떠나 AI 안전 연구 투자사 설립

HPE, 주니퍼 인수 후 첫 통합 보안 네트워킹 포트폴리오 공개

“애플, 아이폰18 시리즈에 폴더블 제품 추가”··· 가격 276만원 예상

AI 구조조정 현실화?··· AWS, 클라우드 컴퓨팅 부문 수백 명 감원

인터뷰 | “AI의 ROI, 하드웨어 아우르는 인프라 전략이 필요하다” 윤석준 레노버ISG 부사장

“기업 자산의 사각지대를 지키는 방법” 퀄리스가 통합 보안에 주목하는 이유

칼럼 | 현직 CISO들이 전한 ‘기업 AI 보안’의 5단계 가이드

인터뷰 | “좋은 기술은 현장에서 쓰여야 한다” 롯데건설 기술연구원 구경영 TRF TFT 팀장

추천 콘텐츠

HS효성인포메이션시스템, GCP 클라우드 마켓플레이스에 ‘VSP One SDS’ 입점

“새로운 웹툰 소비 방식 대응”···네이버웹툰, 영어 서비스에 ‘비디오 에피소드’ 첫 선

“개발자 번아웃, 개인 아닌 구조의 문제”···자율성·몰입·협업으로 푸는 3가지 해법

‘이제 보고 듣고 말한다’… 챗GPT, 음성·이미지 인식 기능 추가

오픈AI의 생성형 AI 챗봇인 챗GPT에 음성 인식 기능과 이미지 분석 기능이 추가된다. 아직은 영어만 지원되지만, 다른 언어 번역 기능이 추가될지 여부에도 관심이 쏠린다.

글로벌 뉴스와 IT 트렌드 보고서를 무료로 받으세요!

이 저자의 추가 콘텐츠

xAI 공동 창업자, 회사 떠나 AI 안전 연구 투자사 설립

HPE, 주니퍼 인수 후 첫 통합 보안 네트워킹 포트폴리오 공개

“애플, 아이폰18 시리즈에 폴더블 제품 추가”··· 가격 276만원 예상

AI 구조조정 현실화?··· AWS, 클라우드 컴퓨팅 부문 수백 명 감원

인터뷰 | “AI의 ROI, 하드웨어 아우르는 인프라 전략이 필요하다” 윤석준 레노버ISG 부사장

“기업 자산의 사각지대를 지키는 방법” 퀄리스가 통합 보안에 주목하는 이유

칼럼 | 현직 CISO들이 전한 ‘기업 AI 보안’의 5단계 가이드

인터뷰 | “좋은 기술은 현장에서 쓰여야 한다” 롯데건설 기술연구원 구경영 TRF TFT 팀장

추천 콘텐츠

HS효성인포메이션시스템, GCP 클라우드 마켓플레이스에 ‘VSP One SDS’ 입점

“새로운 웹툰 소비 방식 대응”···네이버웹툰, 영어 서비스에 ‘비디오 에피소드’ 첫 선

“개발자 번아웃, 개인 아닌 구조의 문제”···자율성·몰입·협업으로 푸는 3가지 해법