AI 학습에 사용되는 음악, 이미지, 영상 등의 데이터 라이선스를 제공하는 7개 기업이 모여 DPA라는 협회를 설립했다고 26일 밝혔다. 이들은 DPA를 중심으로 책임감 있고 윤리적인 지적재산권 사용을 장려하기 위한 기반을 마련할 예정이다.
AI 학습 데이터는 AI 모델을 개발 및 활용하는 기업 모두에 문제가 된다. 일부 AI 학습 데이터의 출처는 법적, 윤리적으로 불분명하기 때문이다. 실제로 많은 창작자들이 자신의 작품, 목소리, 이미지 등이 무단으로 AI 학습에 이용되는 것에 대해 반발하고 있으며, 웹사이트 운영 기업도 AI 기업의 무분별한 콘텐츠 수집을 막고자 노력하고 있다.
이번에 출범한 DPA(Dataset Providers Alliance)에는 라이츠파이 (Rightsify), GCX(Global Copyright Exchange), 비아이주얼(vAIsual), 칼리오페 네트웍스(Calliope Networks), 아도(ado), 데이터레이드(Datarade), 픽스타 Ai(Pixta AI) 등이 참여했다.
DPA에 속한 기업은 AI와 머신러닝을 위한 지적재산권 라이선스 표준화를 위한 작업에 착수할 예정이다. 또한 윤리적인 데이터 관행을 장려하고, 업계 협력을 촉진하며, 콘텐츠 제작자의 권리를 옹호하면서도 AI와 ML 혁신을 지원할 계획이라고 밝혔다.
라이츠파이와 GCX의 CEO인 알렉스 베스톨은 “DPA는 데이터셋 제공업체들의 강력한 대변인 역할을 할 것”이라며 “콘텐츠 제작자의 권리를 보호하는 동시에 AI 개발자들이 양질의 대규모 학습 데이터를 확보할 수 있도록 할 것”이라고 말했다.
데이터 제공업체가 이렇게 DPA라는 단체를 설립한 이유는 기존에 잘못된 AI 기술 관행을 바로잡기 위해서다. AI 기업은 종종 원 저작자나 권리자의 동의 없이 인터넷에서 방대한 양의 콘텐츠를 수집해 모델을 학습했으며, 이는 많은 분쟁의 원인이 되어왔다. 또한 개인의 목소리나 이미지가 무단으로 복제되는 사례도 발생하고 있다. 대표적으로 배우 스칼렛 요한슨이 오픈AI 챗봇의 목소리가 자신과 매우 흡사하다고 주장한 바 있다.
이런 문제에 대응해 미국에서는 작년에 ‘허위 사실 금지법(NO FAKES Act)’, 올해에는 ‘생성형 AI 저작권 공개법’을 도입했다. DPA 같은 단체들은 이런 법안의 시행을 지원하고 유사한 조치를 옹호하는 역할을 할 것으로 보인다.
이런 규제로 투명성과 책임 있는 AI 관행의 중요성이 강조될 수 있지만, 동시에 규제 준수에 들어가는 비용 부담을 기업에게 줄 수 있다. 포레스터의 부사장 겸 수석 애널리스트 찰리 다이는 “생성형 AI 저작권 공개법을 준수하려면 기업들은 저작권이 있는 콘텐츠를 추적하고 보고하기 위한 인력과 예산을 할당해야 하며, 투명성 보장과 공개 요건을 충족해야 한다”라며 “데이터세트 생성 시 저작권 관련 정보를 문서화하고 공개하는 등의 운영 프로세스도 도입해야 한다”라고 덧붙였다.
또한 적절한 리스크 관리 능력을 가져야 앞으로 법적 분쟁에 휘말리거나 평판이 떨어지는 것을 막을 수 있다. 전략도 규제 준수를 위해 조정해야 할 수도 있다. 특히 다국적 기업의 경우 상황이 더욱 복잡해질 수 있다.
IDC의 아시아태평양 AI 부문 리서치 매니저 스왑닐 쉔데는 “미국과 유럽 같은 선진 시장이 다른 국가에 영향을 미칠 수 있는 규제 표준을 선도하고 있지만, 각국은 자국 시장에 맞게 규정을 조정해야 한다”라고 “규제가 확대되는 상황은 국경을 넘나드는 다국적 기업들에게 도전 과제가 될 것”이라며 “다양한 규정 준수 요구사항을 충족하면서도 일관성을 유지하려 노력해야 할 것”이라고 말했다.
저작권 분쟁이 지속되는 가운데 라이선스가 확실한 데이터에 대한 수요가 늘어날 것으로 보인다. 법적, 재정적 위험을 줄이기 위해 라이선스가 확실한 학습 데이터를 찾는 기업이 늘어날 수 있기 때문이다.
포레스터의 다이는 “AI 보안 및 거버넌스 책임자들은 사업 전략과 연계된 포괄적인 위험 완화 프레임워크를 개발해야 한다”라며 “AI 프로젝트에서 잠재적 위험을 파악하고 평가하며 해결할 수 있어야 한다”라고 조언했다. 그는 또 “데이터 보안과 거버넌스를 지속적으로 보장하는 플랫폼과 관행을 고려해야 하며, 민감한 데이터를 보호하고 규정을 준수하기 위한 강력한 보안 조치도 구현해야 한다”라고 조언했다.
IDC의 쉔데는 “기업은 규정을 준수하는 공급업체의 라이선스 데이터를 우선시하고, 명확한 계약과 면책 조항을 통해 소유권을 확인해야 한다”라며 “엄격한 데이터 소싱 및 관리 표준을 채택해야 기업은 새로운 사업 기준을 설정하고, 운영 건전성을 강화하며, 소비자와 규제 기관의 신뢰를 얻을 수 있다”라고 말했다. 마지막으로 그는 “기업이 윤리적 AI 관행에 지속적으로 참여해야 지속 가능한 성장을 달성하고 기술 분야에서 경쟁 우위를 유지할 수 있을 것”이라고 강조했다.
dl-ciokorea@foundryco.com