자세히 보기

이지현
Senior Editor

“영화 ‘허’ AI 처럼 노래하고 농담하고…” 오픈AI, 음성·영상 인식 강화한 GPT

뉴스
2024.05.142분

오픈AI가 진화된 AI 모델 GPT-4o(‘포오’라고 읽는다)를 13일 공개했다. 기본 GPT-4가 텍스트 중심 질문을 처리하는 것에 특화됐다면, GPT-4o는 음성과 영상 등 보다 다양한 데이터를 처리할 수 있다. 또한 GPT-4o를 활용하는 챗GPT는 노래를 하거나 농담 및 풍자 섞인 대화가 가능하며, 인간과 유사한 자연스러운 말투를 가진 것이 특징이다.

GPT-4o에서 o는 옴니(omni)의 약자로 기존 텍스트 중심 입력값을 넘어 오디오, 이미지, 영상 등 다양한 데이터를 인식하고 출력도 다양한 형태로 내놓을 수 있는 모델이다. 즉 새 모델이 탑재된 챗GPT로 사용자는 영상 및 사진을 기반으로 질문하는 것도 가능하다. 영화 ‘허’에서 스마트폰 기기에 설치된 인공지능이 카메라로 바깥세상을 보며 사용자와 대화를 나누는데, GPT-4o로 비슷한 상황을 연출할 수 있게 된 셈이다.

오픈AI 블로그에 공개된 예시를 보면, 오픈AI 직원은 “지금 카메라로 보이는 상황을 보고 내가 무엇을 하려는지 말해봐라”라고 묻자 GPT-4o가 “뭔가를 촬영하는 것 같고 전문적인 장비를 보니 어떤 발표를 하려하는 것 같다”라고 스스로 상황을 파악하고 음성으로 답변했다. 오픈A 직원이 ‘맞다 그 발표가 너(GPT-4o)와 관련된 것이다’라고 하니 GPT-4o는 놀랍다는 말투로 “정말 나와 관련된 발표를 하는 것이냐”라고 물어보기도 했다. 또한 풍자나 농담하는 예시도 공개했는데, 가령 오픈 AI 직원 2명이 “가위바위보를 하는 상황을 카메라로 보여줄 테니 심판을 봐주고, 스포츠캐스터처럼 중계해달라”라고 요청하자 과장된 말투로 스포츠캐스터를 따라 하며 직원에게 웃음을 안겨주었다. 중간에 말을 끊거나 화제를 돌려도 자연스럽게 대화를 이어 나간다. 챗GPT 두개를 켜놓고 서로 대화하는 상황의 예시도 보여주기도 했다.

GPT-4o가 자연스러운 답변을 할 수 있던 배경에는 빠른 반응속도도 한몫했다. 오픈AI에 따르면, GPT-4o는 최소 232밀리초, 평균 320밀리초 만에 오디오 입력값에 응답하며, 이는 대화에서 실제 사람의 응답 시간과 비슷한 수준이다. 이전 버전의 챗GPT 음성 모드의 경우, 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)의 지연 시간이 발생했다.

오픈AI CEO는 샘 알트만은 자신의 블로그를 통해 “새로운 음성(및 동영상) 모드는 내가 사용해 본 컴퓨터 인터페이스 중 최고다. 마치 영화에 나오는 AI처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금은 놀랍다. 사람 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화다”라고 설명했다. 또한 그는 “컴퓨터와 대화하는 것이 자연스럽다고 느껴진 적이 없었는데 GPT-4o로 이제는 자연스러워졌다. 앞으로 개인화, 사용자 정보 입력 등을 추가하면서 컴퓨터를 이용해 이전보다 훨씬 더 많은 일을 할 수 있을 것”이라고 기대했다.

GPT-4o는 현재 챗GPT 무료 및 유료 버전에서 바로 사용할 수 있다. 챗GPT 유료 사용자는 맞춤 기능을 활용할 수 있으며, 질문 수를 무료 버전보다 최대 5배 더 많이 입력할 수 있다. 참고로 기존 GPT-4 모델은 유료 사용자만 이용 가능했다. 샘 알트먼은 “모든 사람에게 뛰어난 AI 도구를 제공한다는 사명을 가진 오픈AI에게 GPT-4o를 무료 및 유료로 개방한다는 것은 중요한 의미를 가진다”라고 밝혔다.
jihyun_lee@idg.co.kr

이지현

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

이 저자의 추가 콘텐츠