마이크로소프트(MS)가 소규모 언어 모델(SLM) 제품군을 공개하면서 대규모 언어 모델(LLM)보다 최대 25배 빠른 속도를 낼 수 있다고 언급했다.
MS가 지난 12일 차세대 인공지능(AI) 모델 제품군을 발표했다. 구체적인 사용 사례를 대상으로 더 작고 민첩한 성능을 낼 수 있는 것으로 전해졌다.
최근 MS는 소규모 언어 모델(SLM)의 첫 번째 모델 파이-1(Phi-1)을 공개한 바 있다. 일반 LLM보다 훨씬 적은 수의 매개변수를 가지고 있다. 가령 챗GPT의 기반인 GPT-3에는 1,750억 개의 매개변수가 있으며, 최신 LLM GPT-4는 약 1조 7천억 개의 매개변수가 있다. 반면 파이-1과 그 뒤를 이어 출시한 파이-1.5는 13억 개 파라미터에 불과하다.
이번에 공개된 파이-2는 그보다는 많은 27억 개 파라미터를 보유했다. 이 역시 특정 사용 사례에 적합한 소규모 모델이지만, MS는 최대 25배 더 큰 LLM보다 성능이 뛰어날 수 있다고 주장했다.
MS는 챗GPT 개발사인 오픈AI의 대주주이자 파트너로, 챗GPT를 코파일럿(Copilot) 생성형 AI 어시스턴트의 기반으로 사용하고 있다. 챗GPT나 바드(Bard) 같은 생성형 AI 애플리케이션에 사용되는 LLM은 방대한 양의 프로세서 사이클을 소비하며, 그 크기 때문에 특정 사용 사례에 맞게 학습하는 데 많은 비용과 시간이 소요된다. 특정 산업 또는 비즈니스에 초점을 맞춘 소규모 모델은 종종 비즈니스 요구 사항에 맞는 더 나은 결과를 제공할 수 있다.
가트너 리서치의 애널리스트 겸 부사장 아비바 리탄은 “조만간 GPU 칩의 확장이 모델 규모 증가를 따라잡지 못할 것이다. 따라서 계속해서 모델을 더 크게 만드는 것은 현실적인 옵션이 아니다”라고 지적했다.
이러한 의견을 반영하듯 최근 금융 서비스 고객을 위한 온라인 챗봇이나 전자 의료 기록을 요약하는 생성형 AI 애플리케이션처럼 도메인별 업무를 수행하는 경우, 더 저렴하게 학습할 수 있도록 LLM을 축소하는 추세가 나타나고 있다. 타깃 데이터로 학습된 소규모 언어 모델이 결국 오픈AI의 GPT-4, 메타AI의 라마2(LLaMA 2), 구글의 팜2(PaLM 2) 등 주요 LLM의 아성에 도전할 것으로 보는 이들도 많다.
언스트&영(Ernst & Young)의 글로벌 AI 컨설팅 리더인 댄 디아시오는 현재 GPU 주문이 밀려 있는 상태라고 말했다. 칩 부족은 LLM을 만드는 기술 기업뿐만 아니라 모델을 조정하거나 자체적인 LLM을 구축하려는 사용자 기업에게도 문제를 야기한다.
디아시오는 “결과적으로 전문화된 기업용 LLM을 세밀하게 조정하고 구축하는 데 드는 비용이 상당히 높기 때문에 지식 향상 팩과 전문 지식이 포함된 프롬프트 라이브러리를 구축하는 추세가 두드러지고 있다”라고 설명했다.
MS는 LLM에 비해 작은 크기의 파이-2가 기계적 해석 가능성, 안정성 개선, 다양한 작업에 대한 미세 조정 실험 등 ‘연구자를 위한 이상적인 놀이터’라고 홍보했다. 파이-2는 애저 AI 스튜디오(Azure AI Studio) 모델 카탈로그에서 사용할 수 있다.
찰머스 대학의 전 AI 연구 엔지니어이자 AI로 과학 연구를 가속화하는 스타트업 아이리스.ai(Iris.ai)의 CTO 겸 공동 창립자 빅터 보테브는 “수십억 파운드 규모의 다국적 기업뿐만 아니라 모든 비즈니스에서 AI를 채택하려면 비용 효율적이어야 한다”라고 전했다.
보테브는 MS의 파이-2 출시에 중요한 의미가 있다고 했다. 그는 “MS가 ‘교과서 수준’의 데이터에 초점을 맞춘 소규모 모델을 통해 기존의 규모 확장 법칙에 도전했다. 이는 AI에 단순히 모델 규모를 늘리는 것 이상의 의미가 있다는 사실을 보여준다”라며 “어떤 데이터로 어떻게 모델을 학습했는지는 불분명하지만, 모델이 더 적은 데이터로 더 많은 일을 할 수 있도록 하는 혁신이 있다”라고 말했다.
LLM은 일반적으로 알고리즘이 더 정확하게 응답할 수 있도록 쿼리와 올바른 답변을 모델에 입력하는 프롬프트 엔지니어링 프로세스를 통해 학습된다. 오늘날 ‘챗GPT를 위한 100개의 베스트 프롬프트’ 같은 프롬프트 목록을 판매하는 마켓플레이스도 있다.
그러나 LLM에 수집되는 데이터가 많을수록 부정확하고 잘못된 결과가 나올 가능성도 커진다. 생성형 AI 도구는 다음 단어를 예측하는 도구이기 때문에 결함 있는 정보를 입력하면 결함 있는 결과가 나올 수 있다. (LLM은 이미 몇 가지 유명한 실수를 저질렀다. 차세대 엔진이 예상을 벗어나 엉뚱한 반응을 보이는 ‘환각’을 일으킬 수 있다.)
보테브는 “데이터 자체가 잘 구조화돼 있고 추론을 촉진한다면 어떤 모델이든 환각을 일으킬 여지가 적다. 코딩 언어는 텍스트보다 추론에 기반하기 때문에 학습 데이터로 사용할 수도 있다”라고 말했다.
또 그는 “언어 모델이 사실에 기반해 정보를 수집, 처리, 재생산할 수 있도록 도메인에 특화돼 구조화된 지식을 사용해야 한다. 여기서 더 나아가 지식 그래프는 언어 모델이 출력에 도달하기 위해 취하는 단계를 평가하고 보여줄 수 있으며, 본질적으로 가능한 사고의 사슬을 생성할 수 있다. 이 학습에서 해석의 여지가 적다는 것은 모델이 사실에 입각해 정확한 답변을 도출할 가능성이 높다는 것을 의미한다”라고 설명했다.
그는 “파이-2와 같은 고성능의 소규모 모델은 앞으로 나아갈 방향을 제시하고 있다”라고 덧붙였다. dl-ciokorea@foundryco.com