可信数据空间 AI大模型训练数据的合规要求（如数据来源、版权）？

基础知识 2025年11月17日下午2:10 24

AI大模型训练数据的合规核心围绕“来源合法性”与“版权尊重”两大底层要求展开。数据来源需确保合规性：公开数据集应选择已明确授权（如开源协议、权利人书面许可）的内容，爬取公开网络数据需遵守robots协议及网站使用条款，不得违规突破反爬措施或抓取未公开/限制访问的信息；涉及用户生成内容（UGC）或个人信息的，需通过隐私政策、单独授权等方式取得用户明确同意，并对个人信息进行匿名化处理（如去标识化），符合《个人信息保护法》《GDPR》等隐私法规要求。版权层面需严格遵循著作权法：对受版权保护的文字、图像、音频等内容，要么通过直接授权（联系权利人）、版权集体管理组织（如中国版权保护中心）获得使用许可，要么限于“合理使用”范畴（需满足“非商用目的”“使用量不构成作品核心”“不影响原作品市场价值”三大条件）；优先选用开源协议（如MIT、Apache）或CCO等无版权限制的内容，严禁将盗版、未经授权复制的内容（如盗版书籍、影视片段）混入训练数据。同时，需建立前置过滤机制，主动剔除训练数据中的侵权、违法内容（如盗版文本、未经授权的改编作品），确保数据全流程合规。

摘自《可信数据空间合规100问》

可信数据空间 AI大模型训练数据的合规要求（如数据来源、版权）？

联系我们

13965147580

可信数据空间 AI大模型训练数据的合规要求（如数据来源、版权）？

相关新闻

联系我们

13965147580