구글 클라우드가 대규모 언어 모델(LLM)이 특정 사용 사례에 얼마나 적합한지 평가해주는 ‘생성형 AI 평가 서비스’를 지난달 AI 플랫폼 버텍스 AI에 도입했다. 구글은 이 서비스가 많은 기업 고객이 걱정하는 환각을 줄이는 데 효과적이라고 소개하고 있다.
환각은 LLM이 잘못된 응답이나 결과물을 생성하는 현상을 말한다. 보통 복잡성이 커지거나 잘못된 데이터를 활용하면서 환각 현상이 발생한다. 환각 현상을 최소화하기 위해선 검색 증강 생성(RAG), 파인 튜닝(최적화), 프롬프트 엔지니어링 같은 방법을 쓸 수 있다. 가령 RAG는 답변 수준을 개선하기 위해 외부 지식 소스나 저장소에서 가져온 사실들을 모델에 추가로 제공한다.
생성형 AI 평가 서비스가 기업에게 주는 이점
구글 클라우드 버텍스 AI의 제품 관리 디렉터인 넨샤드 바르돌리왈라에 따르면, 생성형 AI 평가 서비스의 핵심은 ‘점별(Pointwise)’과 ‘쌍별(Pairwise)’이라는 평가 패러다임이다. 점별 평가는 특정 사용 사례에 대해 모델이 얼마나 잘 작동하는지 알려준다. 이를 통해 LLM의 이상적인 결과물을 반영하는 기준 데이터 세트를 얻거나 제미나이 모델을 사용해 결과물의 품질을 파악할 수 있다.
쌍별 평가에선 신속 모드와 파이프라인 모드를 지원한다. 신속모드를 통해 사용자는 실시간 대화형 워크플로를 통해 프롬프트의 품질을 개선할 수 있다. 또한 프롬프트를 변경하고 그 변경의 효과를 파악할 수 있다. 파이프라인 모드를 사용하면 더 많은 정답 데이터 세트를 사용하여 평가를 수행하거나 ‘오토레이터(autorater, 자동평가 도구)’에게 더 많은 예시를 살펴보도록 요청할 수 있다. 이때 오토레이터는 제미나이 또는 팜(PaLM) 같은 구글의 LLM을 활용한다.
미국 컨설팅 기업 웨스트먼로(Westmonroe)의 기술 책임자 에릭 존슨은 오토레이터에 주목하며 “오토레이터에 사용되는 LLM은 근거 자료 없이도 모델을 평가한다. 평가 결과에는 신뢰도 점수와 설명이 포함되어 있어 유용한 평가 프로세스를 제공한다”라고 평가했다.
또 다른 미국 컨설팅 기업 더퓨처럼그룹(The Futurum Group)의 신기술 실무 책임자인 밥 서터에 따르면, 오토레이터는 인간이 LLM을 평가하는 방식을 모방한다. 서터는 “사실상 사람을 통해 오토레이터를 조정하여 좀 더 정확한 결과를 만들수 있다”라고 설명했다.
바르돌리왈라는 파이프라인 모드는 파운데이션 모델 선택, 프롬프트 엔지니어링의 단계, 미세 조정 워크플로우의 단계, 업데이트된 프롬프트를 배포하기 전 최종 점검 등에 사용할 수 있다고 설명했다.
쌍별 평가를 통해 두 모델 비교하기
쌍별 평가는 특정 모델을 서로 비교하는 데 도움을 주는 기술이다. 바르돌리왈라는 “쌍별 평가는 오토레이터(autorater) 중심 방식과 정답 데이터(ground-truth) 입력 기반 방식을 모두 활용한다. 점별 평가와 마찬가지로 쌍별 평가도 다양한 사용 사례를 지원하기 위해 신속한 파이프라인 옵션을 지원한다. 이때 쌍별 평가의 파이프라인 모드는 ‘자동정렬(Auto SxS)’이라는 이름으로 제공된다”라고 전했다.
또한 기업은 신속한 평가를 위해 두 기능 모두에서 제미나이 1.5 프로를 오토레이터로 사용하여 모든 구글 모델과 튜닝된 버전을 평가할 수 있다. 파이프라인 모드의 경우, 두 기능 모두에서 팜(PaLM)과 제미나이를 모두 오토레이터로 지원한다. 바르돌리왈라는 “버텍스 AI 모델 레지스트리에 저장된 제미나이 및 팜의 미세 조정된 버전도 비교할 수 있다”라고 설명했다.
애널리스트에 따르면 이러한 평가는 기업이 비용이 많이 드는 비즈니스 오류를 방지하는 데 도움이 될 수 있다. 서터는 “쉐보레의 생성형 AI 챗봇이 경쟁사 포드의 픽업트럭을 추천한 사례와 같이 테스트되지 않았거나 평가되지 않은 모델이 문제가 발생하는 것을 예방할 수 있을 것”이라고 설명했다.
구글은 생성형 AI 평가 서비스의 궁극적 목표는 파운데이션 모델 선정부터 커스터마이징(프롬프트 엔지니어링, 튜닝, 증류, CI/CD)에 이르는 전체 생성형 AI 개발 라이프사이클에 걸쳐 평가를 지원하는 것이라고 전했다.
동시에 바르돌리왈라는 생성형 AI 평가 서비스는 버텍스 AI 내 모델 평가 서비스와는 다른 것이라고 강조했다. 그는 “버텍스 AI의 모델 평가 서비스는 기업 사용자가 예측 AI 모델을 평가할 때 쓰는 기술”이라며 “해당 서비스는 사용자가 맞춤형으로 훈련된 예측 모델(예: 분류기, 회귀 등)을 가지고 사용자가 제공한 ‘정답 데이터’ 세트에 대해 품질 지표를 간편하게 계산할 수 있게 돕는다”라고 설명했다.
생성형 AI 평가 서비스를 두고 경쟁하는 클라우드 기업
빅테크 기업들은 생성형 AI 평가 서비스를 제공하기 위한 도구를 빠르게 내놓고 있다. 구글의 라이벌, 특히 경쟁 아마존웹서비스(AWS)와 마이크로소프트는 아마존 베드록, 애저 AI 스튜디오 같은 생성형 AI 및 머신러닝 서비스에서 모델 평가를 위한 도구를 제공하고 있다.
올해 4월, AWS는 아마존 베드록 내부의 모델 평가 기능을 공식 출시했다. 해당 모델 평가 기능을 통해 기업은 자동 또는 수동 방법을 선택하여 정확성, 견고성, 위험성 같은 지표를 확인하고 기업브랜드의 톤앤매너에 맞는 결과를 내놓았는지도 확인할 수 있다. 자동 평가는 서비스 내부에서 제공되는 파운데이션 모델을 통해 완료되지만, 수동 평가는 기업 내부 팀 또는 AWS 관리 직원이 직접 수행할 수 있다.
또한 모델 평가 작업을 프로그래밍 방식으로 생성하고 관리할 수 있는 옵션도 있다. AWS는 머신러닝 서비스인 아마존 세이지메이커에선 모델 및 데이터 드리프트 모니터링과 머신러닝 편향성 감지에 각각 사용할 수 있도록 ‘세이지메이커 모델 모니터’와 ‘세이지메이커 클래리파이’라는 기능을 제공하고 있다.
특히 데이터 과학자와 ML 엔지니어는 세이지메이커 클래리파이를 통해 특정 사용 사례에 적합한 LLM을 찾을 수 있다. 기술적으로는 오픈소스 LLM 평가 라이브러리인 FMEval를 활용했다. AWS는 “FMEval은 LLM 모델 엔드포인트 또는 생성형 AI 서비스 전체의 엔드포인트에 대한 평가를 모두 수행할 수 있는 기능을 제공한다. FMEval은 모든 LLM에 대한 정확성, 견고성, 편향성, 위험성, 사실적 지식과 같은 평가 차원을 측정하는 데 도움이 된다”라고 설명했다.
FMEval을 사용하면 AWS 외에도 챗GPT, 허깅페이스 랭체인과 같은 서드파티 플랫폼에서 호스팅되는 LLM을 평가할 수 있다.
마이크로소프트도 애저 AI 스튜디오 서비스에서 모델 평가 기능을 지원하고 있다. 애저 AI 스튜디오 서비스는 일종의 모델 벤치마킹 도구로서 정확도 등의 메트릭을 기반으로 특정 사용 사례에 모델을 사용하기 전에 테스트할 수 있게 돕는다.
dl-ciokorea@foundryco.com