By 이지현

Senior Editor

어떤 LLM이 더 낫지?··· 아서, AI 모델 비교·분석 도구 ‘아서 벤치’ 오픈소스로

뉴스

2023.08.182분

머신러닝 모니터링 스타트업 아서(Arthur)가 생성형 AI 모델을 비교해주는 ‘아서 벤치(Arthur Bench)’를 오픈소스 형태로 17일 공개했다.

예를 들어 아서는 자체적으로 모델을 비교 분석하는 ‘GAP(The Generative Assessment Project)’라는 연구 프로젝트를 운영한 결과, ‘신뢰성’을 중요한 영역에서는 앤트로픽이 오픈AI의 비해 약간의 우위를 점하고 있다는 사실을 발견했다. 수학 문제 답을 구할 때는 오픈AI의 GPT-4가 우수하지만, 역사 문제 답을 찾을 때는 앤트로픽의 클로드-2(Claude-2) 모델이 이 더 낫다는 것이다. 클로드-2가 환각 현상을 피하고 답하기 어려운 문제는 적절하게 ‘모르겠다’라고 출력하기 때문이다.

아서 공동 설립자 겸 CEO 아담 웬첼(Adam Wenchel)은 공식 보도자료를 통해 “GAP 연구에서 명확히 알 수 있듯이, LLM 간의 성능 차이를 이해하면 엄청난 차이를 가져올 수 있다. LLM 제공업체 간의 차이점, 다양한 프롬프트 사용 및 확대 전략, 맞춤형 학습 구조를 깊이 이해할 수 있도록 아서 벤치를 오픈 소스 형태로 만들었다”라고 설명했다.

아서 벤치 사용자는 아서가 제시한 기본 기준을 가지고 모델을 평가할 수 있으며, 필요한 경우 기업이 직접 특정 조건을 추가해 비교 분석할 수도 있다. 웬첼은 테크크런치와의 인터뷰에서 “고객은 특정 애플리케이션에 가장 적합한 모델이 무엇인지 고민된다고 자주 말했으며, 아서 벤치가 이에 대한 해결책이 될 것이라고 생각한다”라며 “100개의 질문을 여러 AI 챗봇에 입력하고 결과가 어떻게 다른지 직접 볼 수 있다”라고 설명했다.
jihyun_lee@idg.co.kr

By 이지현

Senior Editor

Follow 이지현 on LinkedIn

2022년부터 CIO 코리아 책임 기자로 일하며 AI, 디지털 전환, 클라우드 등 주요 기술 이슈에 대한 최신 트렌드와 인사이트를 전달하고 있습니다. 국내외 IT 리더들을 대상으로 한 심층 인터뷰와 리더십 취재를 꾸준히 이어가고 있으며, 다양한 현장을 찾아 업계 흐름을 생생하게 전하고자 합니다. 아울러, 한국IDG가 주관하는 콘퍼런스와 조찬 세미나에도 참여하며, 국내 IT 리더들이 자연스럽게 교류하고 의견을 나눌 수 있는 자리를 만드는 데 힘쓰고 있습니다.

CIO 코리아 합류 전에는 2013년부터 기술 전문 매체 블로터에서 IT 기자로 활동했으며, 그보다 앞서 한국에서 컴퓨터공학을 전공하고 미국 뉴욕에서 1년간 프로그래머 인턴으로 근무한 경험이 있습니다. 현재도 취미로 프로그래밍을 이어가며, IT 업계에 종사하는 분들을 늘 응원하는 마음으로 취재 활동을 이어가고 있습니다.

Africa

Americas

Asia

Europe

Oceania

토픽

About

정책

네트워크

자세히 보기

어떤 LLM이 더 낫지?··· 아서, AI 모델 비교·분석 도구 ‘아서 벤치’ 오픈소스로

머신러닝 모니터링 스타트업 아서(Arthur)가 생성형 AI 모델을 비교해주는 ‘아서 벤치(Arthur Bench)’를 오픈소스 형태로 17일 공개했다.

이 저자의 추가 콘텐츠

“마블·스타워즈, 세로 스크롤 웹툰으로” 네이버웹툰-디즈니, 글로벌 파트너십 체결

퍼플렉시티, 구글 크롬 47조 원에 인수 제안

“7만 5,000줄 코드 한 번에 처리 가능”···앤트로픽, 클로드에 100만 토큰 컨텍스트 지원

코파일럿 혁신 이끈 깃허브 CEO, 2025년 말 퇴임···MS와 통합 가속되나

“한국 HR 테크 산업 최대 규모 거래” 리멤버, 스웨덴 투자사에 5,000억 원에 매각

샘 알트먼 발언으로 읽는 GPT-5 핵심 특징과 AI의 미래

AWS, 오픈AI 모델 첫 지원···생성형 AI 선택지 넓힌다

한국 정부, K-AI 모델 개발 시동···정예팀 5곳와 함께하는 50여 개 기관은 어디?

추천 콘텐츠

현직 IT 리더들이 말하는 ‘실패 없는 벤더 관계 관리법’

사례 | "유행에 무작정 뛰어들지 않아 성공했다" 美 엠플리파이헬스의 AI 도입 전략

'美 연방정부 투자설 나오는 가운데…' 인텔, 전현직 CEO 간 갈등은 심화

어떤 LLM이 더 낫지?··· 아서, AI 모델 비교·분석 도구 ‘아서 벤치’ 오픈소스로

머신러닝 모니터링 스타트업 아서(Arthur)가 생성형 AI 모델을 비교해주는 ‘아서 벤치(Arthur Bench)’를 오픈소스 형태로 17일 공개했다.

글로벌 뉴스와 IT 트렌드 보고서를 무료로 받으세요!

이 저자의 추가 콘텐츠

“마블·스타워즈, 세로 스크롤 웹툰으로” 네이버웹툰-디즈니, 글로벌 파트너십 체결

퍼플렉시티, 구글 크롬 47조 원에 인수 제안

“7만 5,000줄 코드 한 번에 처리 가능”···앤트로픽, 클로드에 100만 토큰 컨텍스트 지원

코파일럿 혁신 이끈 깃허브 CEO, 2025년 말 퇴임···MS와 통합 가속되나

“한국 HR 테크 산업 최대 규모 거래” 리멤버, 스웨덴 투자사에 5,000억 원에 매각

샘 알트먼 발언으로 읽는 GPT-5 핵심 특징과 AI의 미래

AWS, 오픈AI 모델 첫 지원···생성형 AI 선택지 넓힌다

한국 정부, K-AI 모델 개발 시동···정예팀 5곳와 함께하는 50여 개 기관은 어디?

추천 콘텐츠

현직 IT 리더들이 말하는 ‘실패 없는 벤더 관계 관리법’

사례 | "유행에 무작정 뛰어들지 않아 성공했다" 美 엠플리파이헬스의 AI 도입 전략

'美 연방정부 투자설 나오는 가운데…' 인텔, 전현직 CEO 간 갈등은 심화