By 이지현

Senior Editor

사전 훈련 없이도 작업 척척··· 딥마인드, 로봇 위한 ‘액션’ 모델 RT-2 공개

뉴스

2023.08.012분

인공지능디지털 트랜스포메이션생성형 AI

딥마인드가 로봇 운영을 위한 새로운 시각 언어(Vision Language Action, VLA) 모델인 ‘로봇 트랜스포머 2(Robotics Transformer 2, 이하 RT-2)’를 28일 공개했다.

딥마인드에 따르면 RT-2는 웹과 로봇 데이터 모두에서 학습하고 해당 지식을 로봇 제어를 위한 일반화된 명령어로 변환하는 새로운 비전 언어 액션(VLA) 모델이다.

기존의 AI 모델이 텍스트 중심의 데이터를 학습한 것에 비해 RT-2는 텍스트와 이미지 데이터 모두를 활용한다. 따라서 일반 문장을 이해하는 능력과 이미지를 해석하는 능력도 뛰어나다는 것이 딥마인드의 설명이다.

여기에 RT 기술 자체는 2022년에 이미 출시된 바 있는데 이번에 나온 2세대 기술은 1세대 기술과 달리 적은 데이터를 가지고도 로봇이 특정 업무를 수행하도록 돕는다. 이때 기존 웹에 있는 데이터도 활용하면서 특별한 훈련 없이 로봇이 지시한 명령을 수행할 수 있다고 한다. 연구팀은 “RT-1에서 RT-2로 전환한 후 새로운 작업 수행 효율성이 32%에서 62%로 향상되었다”라고 설명했다.

공식 블로그에 나온 예시에 따르면, 과거 로봇에게 쓰레기를 버리도록 훈련시키려면 로봇이 무엇이 쓰레기를 식별하고 주워서 버리도록 명시적으로 훈련시켜야 했다. 하지만 RT-2를 이용하면 웹 데이터를 기반으로 로봇이 쓰레기가 무엇인지 이해할 수 있으며, 구체적인 훈련 없이도 추론 과정을 거쳐 처음 보는 물체 중에 쓰레기를 구별하고 직접 버리는 행동까지 수행할 수 있다.

딥마인드는 공식 블로그를 통해 “RT-2는 비전 언어 모델(Vision Language Models, VLM)이 강력한 비전 언어 액션(Vision Language Action, VLA) 모델로 변환될 수 있음을 보여주며, VLM 사전 학습과 로봇 데이터를 결합하여 로봇을 더 쉽게 제어할 수 있을 것”이라고 기대했다.
jihyun_lee@idg.co.kr

By 이지현

Senior Editor

Follow 이지현 on LinkedIn

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

Africa

Americas

Asia

Europe

Oceania

토픽

About

정책

네트워크

자세히 보기

사전 훈련 없이도 작업 척척··· 딥마인드, 로봇 위한 ‘액션’ 모델 RT-2 공개

딥마인드가 로봇 운영을 위한 새로운 시각 언어(Vision Language Action, VLA) 모델인 ‘로봇 트랜스포머 2(Robotics Transformer 2, 이하 RT-2)’를 28일 공개했다.

이 저자의 추가 콘텐츠

“마블·스타워즈, 세로 스크롤 웹툰으로” 네이버웹툰-디즈니, 글로벌 파트너십 체결

퍼플렉시티, 구글 크롬 47조 원에 인수 제안

“7만 5,000줄 코드 한 번에 처리 가능”···앤트로픽, 클로드에 100만 토큰 컨텍스트 지원

코파일럿 혁신 이끈 깃허브 CEO, 2025년 말 퇴임···MS와 통합 가속되나

“한국 HR 테크 산업 최대 규모 거래” 리멤버, 스웨덴 투자사에 5,000억 원에 매각

샘 알트먼 발언으로 읽는 GPT-5 핵심 특징과 AI의 미래

AWS, 오픈AI 모델 첫 지원···생성형 AI 선택지 넓힌다

한국 정부, K-AI 모델 개발 시동···정예팀 5곳와 함께하는 50여 개 기관은 어디?

추천 콘텐츠

HS효성인포메이션시스템, GCP 클라우드 마켓플레이스에 ‘VSP One SDS’ 입점

“새로운 웹툰 소비 방식 대응”···네이버웹툰, 영어 서비스에 ‘비디오 에피소드’ 첫 선

시스코, 9% 보안 사업 성장률 뒤에 숨겨진 진짜 전략

사전 훈련 없이도 작업 척척··· 딥마인드, 로봇 위한 ‘액션’ 모델 RT-2 공개

딥마인드가 로봇 운영을 위한 새로운 시각 언어(Vision Language Action, VLA) 모델인 ‘로봇 트랜스포머 2(Robotics Transformer 2, 이하 RT-2)’를 28일 공개했다.

글로벌 뉴스와 IT 트렌드 보고서를 무료로 받으세요!

이 저자의 추가 콘텐츠

“마블·스타워즈, 세로 스크롤 웹툰으로” 네이버웹툰-디즈니, 글로벌 파트너십 체결

퍼플렉시티, 구글 크롬 47조 원에 인수 제안

“7만 5,000줄 코드 한 번에 처리 가능”···앤트로픽, 클로드에 100만 토큰 컨텍스트 지원

코파일럿 혁신 이끈 깃허브 CEO, 2025년 말 퇴임···MS와 통합 가속되나

“한국 HR 테크 산업 최대 규모 거래” 리멤버, 스웨덴 투자사에 5,000억 원에 매각

샘 알트먼 발언으로 읽는 GPT-5 핵심 특징과 AI의 미래

AWS, 오픈AI 모델 첫 지원···생성형 AI 선택지 넓힌다

한국 정부, K-AI 모델 개발 시동···정예팀 5곳와 함께하는 50여 개 기관은 어디?

추천 콘텐츠

HS효성인포메이션시스템, GCP 클라우드 마켓플레이스에 ‘VSP One SDS’ 입점

“새로운 웹툰 소비 방식 대응”···네이버웹툰, 영어 서비스에 ‘비디오 에피소드’ 첫 선

시스코, 9% 보안 사업 성장률 뒤에 숨겨진 진짜 전략