자세히 보기

이지현
Senior Editor

허깅페이스, 메모리 효율화 극대화한 ‘스몰VLM’ 출시···“브라우저서도 구동 가능”

뉴스
2024.11.282분
생성형 AI머신 비전오픈소스

허깅페이스가 새로운 오픈소스 비전언어모델 ‘스몰VLM(SmolVLM)’을 26일 출시했다.

스몰VLM은 비전(이미지)과 언어(텍스트) 데이터를 함께 처리할 수 있는 모델이다. 이 모델은 이미지를 분석해 설명문을 생성하고, 이미지와 텍스트를 결합한 질의응답을 수행하며, 시각 데이터에서 특정 정보를 추출해 텍스트로 변환하는 기능을 제공한다. 허깅페이스는 스몰VLM이 경쟁 모델들과 비교해 현저히 적은 컴퓨팅 자원으로도 높은 효율성을 달성하도록 개발됐다고 밝혔다. 특히 메모리 효율성 측면에서 업계 최고 수준(SOTA)의 성능을 기록했다고 강조했다.

스몰VLM은 총 세 가지 버전으로 제공된다. 기본 모델인 스몰VLM-베이스는 사전 학습된 AI 모델로 특정 작업을 위한 기초를 제공하며, 스몰VLM-신세틱은 합성 데이터를 활용해 파인튜닝된 버전이다. 스몰VLM-인스트럭트는 사용자와의 직접적인 상호작용을 위해 최적화된 모델이다. 허깅페이스는 이 세 가지 모델을 자사의 트랜스포머(Transformers) 라이브러리에 통합해 제공한다고 밝혔다

허깅페이스가 공개한 스몰VLM은 20억 개(2B) 파라미터 규모의 소형 비전-언어 모델군으로, 상업적 활용이 가능하며 소규모 로컬 환경에서도 구동할 수 있도록 설계됐다. 특히 이 모델은 AI 학습에 필요한 모든 요소를 투명하게 공개했다는 점이 특징이다. 모델의 학습된 가중치값(체크포인트), 학습에 사용된 데이터셋, 세부적인 학습 방법과 관련 도구들이 모두 아파치 2.0 라이선스로 제공된다.

허깅페이스가 최근 생성형 AI 모델의 소형화 트렌드에 발맞춰 스몰VLM 모델을 출시했다고 전했다. 허깅페이스는 “올해는 멀티모달 AI의 급성장과 함께 대형 비전-언어 모델(Vision-Language Model, VLM)이 잇따라 출시된 해였다”라며 “초기에는 컴퓨팅 자원을 확장하는 방식이 주를 이뤘고, 이후 대형 모델로 합성 데이터를 생성해 데이터 다양성을 확대하는 추세가 이어졌다”라고 밝혔다. 이어 “최근에는 모델을 소형화해 효율성을 극대화하는 방향이 주목받고 있다”라고 설명했다.

허깅페이스는 소형 오픈 모델의 장점으로 브라우저나 엣지 디바이스에서 로컬 구동이 가능하고, 추론 비용을 절감할 수 있으며, 사용자 맞춤화가 용이하다는 점을 꼽았다. 대표적인 소형 멀티모달 모델로는 구글의 팔리젬마(PaLiGemma) 3B, 문드림AI의 문드림2(moondream2), 알리바바의 퀜2VL(Qwen2VL) 등이 있다고 덧붙였다.
jihyun.lee@foundryco.com

이지현

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

이 저자의 추가 콘텐츠