자세히 보기

이지현
Senior Editor

메타 출신이 만든 데이터 라벨링 업체 리퓨어, 520만 달러 투자 유치

뉴스
2023.06.202분

인공지능 연구에 필요한 고품질 데이터 생산 및 관리 기술을 제공하는 리퓨어(Refuel)가 520만 달러(약 66억 원) 규모의 투자를 유치했다고 15일 밝혔다. 이번 투자는 벤처캐피탈 기업인 제너럴 카탈리스트와 XYZ 벤처스 주도하고, 오픈AI, 슬랙, 메타 등에 소속된 개인 투자자도 참여했다.

리퓨어는 대규모 언어 모델(LLM)을 활용한 데이터 라벨링 솔루션을 제공하고 있다. 주로 AI 기술을 연구하고 개발하는 고객을 공략해서 고품질 데이터 세트를 생성하고, 주석을 달거나 정리할 수 있게 지원하고 있다. 리퓨어는 앞으로 AI 개발 수명 주기에서 고품질 라벨링 데이터가 더 중요해질 것이라고 관련 기술을 개발하고 있다. 

과거 AI 관련 스타트업 및 클라우데라에서 일했던 리퓨어 공동설립자 리샤브 바르가바는 “새로운 AI 사용 사례를 구축하려면 데이터 수집과 주석 처리가 필요하다. 그런데 데이터 라벨링 과정 자체는 몇 주가 걸리는 경우가 많다. 머신러닝팀 대다수는 라벨링된 데이터가 ‘충분히’ 확보될 때까지 계속 기다려야 하는 불편을 겪는다”라며 “개인적으로 이전 회사에서는 수십 개의 NLP 분류기를 훈련해야 했고, 엔지니어, 시니어 디렉터를 포함해 모든 직원이 데이터에 라벨을 붙이는 데만 몇 주를 보냈는데, 막상 결과를 보면 품질도 그다지 높지 않았다”라고 지적했다. 

리퓨어는 AI 기술을 활용해 라벨링 속도와 품질을 높이는 데 집중하고 있다. 리퓨어 주장에 따르면 과거 1만 개의 데이터를 사람이 직접 라벨링할 경우 약 4주간의 시간이 걸렸다면, 리퓨어 기술을 이용하면 최대 30분간 10만 개 데이터를 처리할 수 있다. 

또한 리퓨어는 직접 개발한 기술 ‘오토라벨(Autolabel)’을 오픈소스로 공개했는데, 이를 기업 내부에서 활용하면서 보안성을 갖춘 상태에서 데이터 라벨링 작업을 할 수 있을 것이라고 기대하고 있다. 리퓨터는 공식 블로그를 통해 “오토라벨 기반으로 데이터를 생성하고 레이블한 결과, 사람보다 정확도가 25-100배 향상됐다”라고 설명했다. 

리퓨어의 팀원들은 아마존, 애플, 딥마인드, 우버, 리프트 출신 등으로 구성됐다. 리퓨어의 공동 설립자 니히트 데사이(Nihit Desai) 이전에 메타에서 머신러닝 콘텐츠 무결성을 관리하는 팀을 이끈 인물이다.

니히트 데사이는 “메타의 경우 매일 업로드되는 수십억 개의 콘텐츠가 올라가며, 해당 데이터의 0.01%라도 레이블을 지정하려면 수백 명의 인력이 필요했다”라며 “이러한 레이블링 작업은 유해 콘텐츠를 분류하고 삭제하기 위해 필요하며 동시에 성능이 높은 AI 모델을 구축하는 데 중요한 역할을 한다”라고 설명했다. 

실제로 데이터 라벨링은 많은 시간과 비용이 드는 작업이다. 오픈AI의 경우 데이터 생성 및 라벨링 작업을 위해 약 1,000명의 외부 직원을 계약직으로 고용했다고 보도된 바 있다.

리퓨어는 “LLM의 등장으로 라벨링의 필요성은 급격히 증가했다”라며 “모든 사람이 AI를 사용할 수 있도록 하려면 더 나은 솔루션이 필요하며, 리퓨어 관련 기술을 지원할 것”이라고 설명했다. 
jihyun_lee@idg.co.kr

이지현

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

이 저자의 추가 콘텐츠