数据资源盘点 #
在接入前,必须对数据资产有清晰的认知。
-
数据资产识别
-
自动扫描发现:使用数据资产扫描工具(如Apache Atlas scanners, 商业数据目录工具),对数据库、文件服务器、大数据平台等进行自动扫描,识别数据表的规模、结构、访问热度等。
-
业务价值访谈:与业务部门访谈,识别支撑核心业务(如客户分析、供应链优化、风险控制)的关键数据实体(如“客户主数据”、“订单数据”、“传感器时序数据”),并评估其潜在的外部共享价值。
-
形成资产清单:输出包含数据源位置、格式、负责人、业务描述和初步价值评级的《数据资产初始清单》。
-
-
数据分级分类
这是制定流通策略的前提。-
分类:按业务属性划分,如“客户数据”、“产品数据”、“运营数据”、“日志数据”。按格式分为“结构化”、“半结构化”、“非结构化”。
-
分级:依据《数据安全法》及行业指南,结合数据的敏感度、泄露影响,进行科学分级。例如:
-
公开级(L1):可无条件共享(如产品目录)。
-
内部级(L2):需签订基础协议后共享(如脱敏后的运营统计)。
-
敏感级(L3):需特定目的、强约束条件下共享(如经脱敏和聚合的客户标签)。
-
核心级(L4):原则上不共享,仅在最严格的隐私计算环境下进行价值提取(如原始个人生物信息、核心工艺参数)。
-
-
数据预处理 #
高质量的数据产品是生态繁荣的关键。
-
数据清洗与标准化
-
清洗:处理缺失值、异常值、重复记录,确保数据质量。
-
标准化:
-
格式标准化:统一日期、数值、代码的表示格式。
-
模型标准化:参照空间内发布的公共数据模型(如供应链领域的SCOR模型),将自有数据映射到标准字段和枚举值上,这是实现语义互操作的核心。
-
标识符对齐:对于需要关联的数据,使用安全的加密对齐技术(如基于PSI),在不暴露明细的情况下,完成不同数据集间主体(如企业、设备)标识符的匹配。
-
-
-
元数据标注
为数据资产赋予机器可读的“说明书”。-
技术元数据:数据格式、编码、大小、结构(Schema)。
-
业务元数据:数据负责人、业务定义、数据血缘(来源与转换过程)、更新频率。
-
管理元数据:数据分级分类结果、合规标签(如“含个人信息”)、预设的使用策略模板(如“仅限统计分析”)。
-
语义元数据:关联到空间共用的本体(Ontology)或词汇表(Vocabulary),明确数据字段与共享概念间的映射关系(如将字段“cust_name”映射到概念“Person/FullName”)。元数据应以标准格式(如JSON-LD)封装,便于目录服务索引和发现。
-

