可信数据空间 AI大模型训练数据的合规要求(如数据来源、版权)?

AI大模型训练数据的合规核心围绕“来源合法性”与“版权尊重”两大底层要求展开。数据来源需确保合规性:公开数据集应选择已明确授权(如开源协议、权利人书面许可)的内容,爬取公开网络数据需遵守robots协议及网站使用条款,不得违规突破反爬措施或抓取未公开/限制访问的信息;涉及用户生成内容(UGC)或个人信息的,需通过隐私政策、单独授权等方式取得用户明确同意,并对个人信息进行匿名化处理(如去标识化),符合《个人信息保护法》《GDPR》等隐私法规要求。版权层面需严格遵循著作权法:对受版权保护的文字、图像、音频等内容,要么通过直接授权(联系权利人)、版权集体管理组织(如中国版权保护中心)获得使用许可,要么限于“合理使用”范畴(需满足“非商用目的”“使用量不构成作品核心”“不影响原作品市场价值”三大条件);优先选用开源协议(如MIT、Apache)或CCO等无版权限制的内容,严禁将盗版、未经授权复制的内容(如盗版书籍、影视片段)混入训练数据。同时,需建立前置过滤机制,主动剔除训练数据中的侵权、违法内容(如盗版文本、未经授权的改编作品),确保数据全流程合规。

摘自《可信数据空间合规100问》

相关新闻

联系我们

联系我们

13965147580

在线咨询:点击这里给我发消息

邮件:674290@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信
关注微信
分享本页
返回顶部