자세히 보기

이지현
Senior Editor

‘챗GPT의 오픈소스 버전’··· 스테이빌리티AI, 대형 언어모델 스테이블LM 공개

AI 이미지 생성기 '스테이블 디퓨전' 개발 업체로 유명한 스테이빌리티AI(Stability AI)가 오픈소스 기반 언어 모델 스테이블LM(StableLM)를 출시한다고 19일 밝혔다.

스테이블LM은 현재 알파 버전 형태로 깃허브와 허깅페이스에 올라온 상태다. 개발자는 자유롭게 스테이블LM 코드를 활용해 챗GPT와 유사한 서비스를 만들 수 있는데, 특정 질문을 입력하면 적절한 답변을 내놓는 AI를 만들 수 있는 식이다.

공식 보도자료에서 공개한 예시에 따르면, ‘고등학교를 졸업한 친구에게 무슨 말을 해야 할까?’라라는 질문에 ‘자랑스럽다는 감정을 표현해봐라’라는 답변을 내놓을 것을 볼 수 있다. 또한 ‘심층 신경망(deep neural network)과 상징적 인공지능(Symbolic AI)이 서로 랩 배틀을 하는 상황을 구현해봐라’, ‘인생의 의미에 대해 C언어로 프로그래밍 해달라’ 같은 질문에도 답변을 할 수 있었다. 

스테이블LM은 비영리 연구 기관이 만든 오픈소스 언어 모델 일루써AI(EleutherAI)를 기반으로 제작됐다. 일루써AI는 데이터브릭스의 돌리-2에서도 활용된 모델이다. 일루써AI가 활용한 데이터는 오픈소스 데이터세트인 ‘더 파일(The Pile)’이다. 더 파일 역시 일루써AI가 만든 데이터로 같은 것에 위키피디아, 공개된 논문을 공유하는 아카이브(ArXiv), 펍메드(PubMed), 유튜브 자막, 해커뉴스, 깃허브 등의 데이터의 일부를 모은 것이다.  스테이빌리티AI는 “스테이블LM은 더 파일 데이터를 훈련해 개발됐지만, 토큰(텍스트의 데이터 단위) 수는 3배 늘려 총 1.5조 개 토큰을 활용했다”라고 밝혔다. 

스테이블LM은 CC-BY-SA-4.0 라이선스가 적용됐으며 출처를 표시하는 한 연구 및 영리 목적으로 활용하고 변형할 수 있다. 향후 스테이빌리티AI는 인간 사용자의 피드백을 직접 받으며 언어 모델을 고도화할 예정이며, 비영리 기관 라이언(LAION)과 협력해 라이언의 오픈소스 AI 비서 기술에 스테이블LM를 접목할 예정이다. 

스테이빌리티AI는 “언어 모델은 디지털 경제의 중추를 형성할 것이다. 스테이빌리티AI는 모든 사람이 언어 모델 설계에 목소리를 낼 수 있기를 기대한다”라며 “스테이블LM 모델은 투명하고, 접근 가능하며, 협력적인 AI 기술을 구현한 것”이라고 설명했다. 
jihyun_lee@idg.co.kr

이지현

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

이 저자의 추가 콘텐츠