이번 이니셔티브는 서드파티 조직이 AI 모델의 고급 기능에 대한 평가 방안을 개발할 수 있도록 자금을 지원하는 데 중점을 둔다.
AI가 빠르게 발전하고 있지만, 그 능력과 잠재적 위험을 평가하는 방안도 같은 속도로 발전하고 있지는 못하다. 이러한 격차를 해소하기 위해 앤트로픽이 고급 AI 기능 및 위험을 평가하기 위한 안전 관련 벤치마크 개발에 자금을 지원하는 이니셔티브를 개시했다.
회사는 “강력한 서드파티 평가 생태계가 AI 역량과 위험을 평가하는 데 필수적이다. 그러나 오늘날의 평가 환경은 제한적이다. 고품질의 안전 관련 평가를 개발하기란 여전히 어려운 과제이며, 수요가 공급을 앞지르고 있다. 이 문제를 해결하기 위해 오늘 우리는 AI 모델의 고급 기능을 효과적으로 측정할 수 있는 외부 조직의 평가 개발에 자금을 지원하는 새로운 이니셔티브를 개시한다”라고 블로그를 통해 밝혔다.
앤트로픽은 이와 관련해 우선순위가 높은 중점 분야를 다루는 제안서를 제출할 수 있도록 하는 지원서도 공개했다. 이와 함께 관심 있는 개발자가 제안서를 제출하고 제출 내용을 구체화할 수 있도록 여러 업계 조직의 전문가들과의 상호 작용을 촉진할 방침이라고 밝혔다.
카운터포인트 리서치의 연구 부사장 겸 파트너인 닐 샤는 이번 이니셔티브에 대해 “‘책임 있고 안전한’ AI를 더 광범위하고 심층적으로 추진하기 위한 훌륭한 행보”라며, “안전하지 않거나 악의적인 모델로 구성된 서드파티 모델이 확산되기 시작하면 AI 구현에 큰 물음표를 던질 것이 분명하므로 안전한 AI를 위한 기반이 무엇보다도 중요하다”라고 평가했다.
발표에 따르면 이번 이니셔티브는 세 가지 주요 영역에 우선순위를 둔다. AI 안전 수준 평가, 고급 기능 및 안전 메트릭, 평가 개발을 위한 인프라가 그것이다.
안전성 평가 우선순위 지정
AI 안전 수준 평가에는 사이버 보안, 화학, 생물학, 방사능, 핵(CBRN) 위험, 모델 자율성 및 기타 국가 안보 위험이 포함된다. 이 평가는 앤트로픽의 책임 있는 확장 정책(Responsible Scaling Policy)에 정의된 AI 안전 수준을 측정하여 모델이 책임감 있게 개발 및 배포되도록 보장할 수 있어야 한다.
앤트로픽은 “강력한 ASL 평가는 책임감 있게 모델을 개발하고 배포하는 데 매우 중요하다. 현재의 평가는 너무 단순하거나 온라인에서 쉽게 액세스할 수 있는 솔루션이 없는 등, 부족한 부분이 많다”라고 밝혔다.
회사는 또 AI 시스템이 잠재적으로 초래할 수 있는 국가 안보 위협과 같은 중요한 문제를 해결하기 위한 솔루션도 제안했다.
“AI 시스템은 국가 및 비국가 행위자 모두의 국가 안보, 국방 및 정보 작전에 상당한 영향을 미칠 수 있다. 우리는 이러한 복잡한 새로운 위험을 식별하고 평가할 수 있는 조기 경보 시스템을 개발하기 위해 최선을 다하고 있다”라고 회사는 밝혔다.
첨단 역량도 측정
이번 펀드는 안전을 넘어 데이터 모델의 능력과 잠재적 위험의 전체 스펙트럼을 평가하는 벤치마크를 개발하는 것도 목표로 한다. 여기에는 새로운 실험 설계나 문제 해결 프로토콜과 같은 복잡한 작업을 처리할 수 있는 모델을 구상하는 과학 연구에 대한 평가가 포함된다.
회사는 발표문에서 “평가 개발을 위한 인프라, 도구, 방법이 AI 커뮤니티 전반에서 보다 효율적이고 효과적인 테스트를 달성하는 데 매우 중요할 것”이라고 밝혔다. 앤트로픽은 주제별 전문가가 코딩 기술 없이도 강력한 평가를 쉽게 만들 수 있는 도구와 플랫폼을 지원함으로써 고품질 평가 개발을 간소화하는 것을 목표로 한다고 전했다.
“ASL 평가 외에도 고급 역량 및 안전 메트릭을 확보하고자 한다. 이러한 메트릭은 모델의 강점과 잠재적 위험에 대한 보다 포괄적인 이해를 제공할 것”이라고 앤트로픽은 밝혔다.
보다 효율적인 평가 생태계 구축
한편 앤트로픽은 효과적인 평가를 개발하는 것이 쉽지 않다는 점을 강조하며 강력한 평가를 만들기 위한 핵심 원칙을 제시했다. 이 원칙으로는 평가가 충분히 어렵고, 훈련 데이터에 포함되지 않으며, 확장 가능하고, 잘 문서화되어 있는지 확인하는 것 등이 포함된다.
회사는 성명서에서 “고품질 평가 개발을 간소화하는 도구와 인프라에 자금을 지원하고자 한다. 이는 AI 커뮤니티 전반에서 보다 효율적이고 효과적인 테스트를 달성하는 데 중요한 역할을 할 것”이라고 밝혔다.
그러면서도 앤트로픽은 “훌륭한 평가를 개발하기란 어려운 작업”이며 “경험 많은 개발자조차도 일반적인 함정에 빠지고, 아무리 좋은 평가라도 그것이 측정하고자 하는 위험을 항상 나타내는 것은 아니다”라고 인정했다.
가트너의 샤 애널리스트는 앤트로픽과 같은 개별 재단 모델 회사가 수행하는 평가는 주로 자체 플랫폼에 구축된 타사 모델에 초점을 맞출 가능성이 높다며, “그러나 그러나 프레임워크를 모든 타사 모델에 보편적으로 적용하려면 중립적인 평가자, 인증 기관 또는 허깅 페이스와 같은 마켓플레이스가 필요하다”라고 지적했다.
그는 이어 “이러한 접근 방식은 각 주체가 자체적인 기준으로 안전성을 측정할 수 있기 때문에 잠재적으로 안전한 AI를 정의하는 데 있어 파편화를 초래할 수 있다. 모든 기본 모델 개발자와 선도적인 AI 기업이 협력하여 공통의 표준화된 프레임워크에 합의함으로써 안전한 AI를 보장하는 것이 이상적일 것”이라고 평가했다. dl-ciokorea@foundryco.com