【地方案例】北京储备项目:高等教育教学语料可信数据空间
建设单位:高等教育出版社有限公司
运营单位:高等教育出版社有限公司
现有基础
主体方面:高等教育出版社有限公司(以下简称“高教 社”)成立于1954年5月,是新中国最早设立的专业教育 出版机构之一。产品形态涉及图书、音像制品、电子出版物、 网络出版物及期刊等;34个语种版本的多种国际型产品行销 世界70多个国家和地区。在提供教材、教辅的同时,高教 社建设在线教育服务平台,提供数字化教学整体解决方案, 推进教育出版数字化转型升级。深度参与国家智慧教育平台 建设和人工智能重点任务。
数据方面: 已汇聚覆盖本科阶段的13个学科门类和高 职阶段的19个专业大类累计4.5PB 的高质量多模态教育教 学数据。
业务方面:与上海人工智能实验室、阿里云、华为云, 以及部分国家数据标注基地等机构建立了战略合作关系,推 进教育大模型和智能体应用。
拟解决的痛点难点问题
教育教学语料数据存在的数据权属、区域政策上的冲突, 导致数据难以跨校、跨区域流动;语料数据持有权、加工使 用权、产品经营权的边界模糊,以及质量评估、贡献度计量、使用可控性缺乏统一标准,造成数据收益分成无依据;语料 数据共享和模型训练中可能导致学生个人信息、学习轨迹泄 露,以及语料数据采集过度、存储超限、销毁不彻底、流向 不可控、合规监测前置不足等问题带来语料数据安全风险。
建设方案
采用“1+4+3”的分层结构建设整体技术平台。 “1”是 1个统一数据底座,包括混合云架构设计,可实现弹性伸缩、 灵活调配的算力网络,满足多样化存储需求的存储系统,全 光双环拓扑网络架构、混合云环境高效互联的网络架构,以 及多云互联、湖仓一体的数据底座。 “4”为可信管控、资 源交互、价值共创、安全管理4大核心能力中台,引入区块链、 智能合约、隐私计算、低代码开发、数字孪生、教育场景 模拟仿真等技术和系统实现数据可信流通。 “3”即IaaS、 PaaS 、SaaS3层服务接口,实现对用户的多层次资源服务。
![]()
构建包括1个核心枢纽(高等教育出版社)、3类支撑 主体(技术企业、科研机构、政府单位)、 N 个参与方(中 小企业、教育机构、社会团体)的多层次协作网络,对参与 方实行包括数据贡献、技术贡献、市场贡献、其他贡献的动态贡献考量机制和资源、资金、市场、荣誉的四维激励措施, 提升生态伙伴参与积极性。
平台提供包括语料交易服务、内容安全与审核服务的数 据资产化服务,包括模型训练与优化、平台化工具输出的技 术赋能与协作开发服务,包括专业化培训与认证、学术成果 转化服务的教育价值链延伸服务,建立数据确权与利益分配 机制,明确各方的著作权与收益比例。
预期成效
沉淀1 PB 的语料数据和50+个API 接口,语料数据资 产总值达到5亿元,赋能教育改革、科研模式创新和智能体 应用,为中小企业提供普惠数据服务;形成日均处理1TB 语 料数据、数据流通安全可控的技术能力,为大规模数据分析 应用和流通利用提供支持;发展超过200家企业、高校等单 位共同参与的协同生态,实现全产业链数据价值变现。
资料来源:2025年7月,北京市政务服务和数据管理局发布《北京市第一批可信数据空间储备项目》,共21个,本文内容根据公开信息整理,如有侵权,请联系我们删除。

