자세히 보기

By 편집부

알리바바 클라우드, AI 기반 동영상 생성 모델 ‘Wan2.1’ 오픈소스로 공개

뉴스
2025.02.272분
생성형 AI동영상

알리바바 클라우드가 AI 기반 영상 생성 모델을 오픈소스로 무료 공개한다고 25일 발표했다.

Alibaba Cloud Wan2.1
Credit: Alibaba Cloud

공개 대상은 비디오 파운데이션 모델 ‘Tongyi Wanxiang(통이 완샹)’의 최신 버전인 Wan2.1 시리즈 중 140억(14B) 및 13억(1.3B) 매개변수 모델 4종이다. 각각 T2V-14B, T2V-1.3B, I2V-14B-720P, I2V-14B-480P인 4종의 모델은 텍스트 및 이미지 입력을 기반으로 고품질 이미지와 영상을 생성하도록 설계됐다.

올해 초 공개된 Wan2.1 시리즈는 중국어와 영어에서 텍스트 효과를 지원하는 AI 영상 생성 모델이다. 복잡한 움직임을 정밀하게 처리하고, 픽셀 품질을 향상시키며, 물리적 원칙을 준수하며, 명령 실행 정확도를 최적화하는 등 사실적인 영상 생성 능력에서 강점을 발휘한다고 회사는 설명했다.

실제로 Wan2.1은 영상 생성 모델의 종합 벤치마크인 VBench리더보드에서 1위를 기록했으며, 허깅페이스의 VBench 리더보드 상위 5개 모델 중 유일한 오픈소스 영상 생성 모델로 자리매김했다고 알리바바 클라우드는 전했다.

설명에 따르면 T2V-14B 모델은 복잡한 동작이 포함된 고품질 영상 생성에 최적화되어 있으며, T2V-1.3B 모델은 생성 품질과 연산 효율성의 균형을 맞춘 작업에 적합하다. 예를 들어, T2V-1.3B 모델은 개인용 노트북에서도 480p 해상도의 5초 길이 영상을 약 4분 만에 생성할 수 있다.

또한, I2V-14B-720P 및 I2V-14B-480P 모델은 텍스트 기반 영상 생성뿐만 아니라 이미지 기반 영상 생성 기능까지 지원한다.

이번에 공개된 모델 4종은 알리바바 클라우드의 AI 모델 커뮤니티인 ‘모델스코프(ModelScope)’와 협업형 AI 플랫폼 ‘허깅페이스(Hugging Face)’에서 다운로드할 수 있다.

알리바바 클라우드는 2023년 8월 자체 개발한 대규모 AI 모델 ‘Qwen(Qwen-7B, 이하 큐원-7B)’을 처음 공개한 바 있다.
dl-ciokorea@foundryco.com