Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

第一章 总则

第一条 制定依据

本章程依据《量潮科技基本章程》制定,旨在建立量潮云产品线数据工程的标准化规范。

第二条 目的

为建立数据从采集到消费的全链路治理规则,确保数据源头可追溯、中间产物可审计、输出可复用,特制定本章程。

第三条 适用范围

本章程适用于量潮云(qtcloud)产品线所有涉及数据采集、清洗、建模、存储、服务化的数据工程活动。

第四条 定义

(一)数据源,指原始数据的来源,包括第三方 API、文件导入、人工录入、系统日志等。 (二)数据血缘,指数据从源头到最终产出的完整变换链路记录。 (三)数据契约,指数据集的 Schema 定义,包括字段名称、类型、含义、约束条件等。 (四)数据质量阈值,指数据集可被下游消费的最低质量指标,包括完整性、准确性、时效性等。

第二章 数据源管理

第五条 数据源注册

所有数据源在使用前须完成注册,注册信息至少包括:

(一)数据源名称与标识; (二)采集方式与采集频率; (三)数据格式与预估数据量; (四)数据源责任人。

未经注册的数据源不得接入生产环境。

第六条 数据源变更

数据源的采集方式、频率或格式发生变更时,须提前通知所有依赖该数据源的下游消费方,并更新注册信息。

第三章 数据加工

第七条 数据血缘记录

数据加工的每一步变换均须记录血缘信息,包括:

(一)输入数据集名称与版本; (二)变换操作描述; (三)输出数据集名称与版本; (四)执行时间与执行人。

血缘记录应当与数据集一同交付。

第八条 中间产物管理

数据处理过程中产生的中间数据集,应当明确标注为中间产物,并说明其用途和有效期。过期中间产物应当及时清理。

第四章 数据契约

第九条 Schema 定义

每个对外交付的数据集须有明确的 Schema 定义,包含字段名称、数据类型、字段含义、约束条件(如非空、唯一、枚举值范围)。Schema 定义应当与数据集一同交付。

第十条 Schema 变更

数据集 Schema 发生变更时,须遵循以下规则:

(一)新增字段不得破坏已有字段的语义; (二)删除或修改已有字段须提前通知所有消费方; (三)不兼容变更须升级主版本号。

第五章 数据质量

第十一条 质量阈值

每个数据集须定义并记录其质量阈值,包括但不限于:

(一)完整性:字段空值率上限; (二)准确性:数据与真实值的偏差容忍度; (三)时效性:数据从产生到可消费的最大延迟。

第十二条 质量监控

数据加工流程中应当嵌入质量监控点,在阈值被突破时发出告警。不符合质量阈值的数据集不得交付给下游消费方。

第十三条 降级策略

上游数据源出现质量问题时,数据加工流程须有明确的降级策略:使用缓存数据、降级为静态快照,或明确告知下游数据不可用。不得在数据质量不明确的情况下静默产出结果。

第六章 跨领域边界

第十四条 领域交叉识别

数据工程活动可能与其他工程领域产生交叉。当一项活动同时涉及多个领域时,应当首先识别各领域的边界:

(一)数据工程与知识工程的交叉:数据处理流程中涉及从非结构化文本提取结构化知识的,知识提取部分适用《量潮云知识工程章程》,数据加工部分适用本章程。

(二)数据工程与产品研发的交叉:在数据驱动产品研发中,数据契约的变更影响产品端开发的,产品端适配适用《量潮云产品研发章程》,数据契约的维护适用本章程。

(三)数据工程与审计的交叉:涉及数据集质量评估和血缘验证的活动,结构性审核部分适用公司级审计章程,数据加工规范适用本章程。

第十五条 交叉领域的主从规则

跨领域活动的主从关系按以下规则确定:

(一)当活动的主要产出是数据集或数据服务时,本章程为主,其他相关章程为从。

(二)当活动的主要产出是其他领域的产品时,该领域的章程为主,本章程为从。

(三)主从关系应当在任务立项时明确记录,作为后续验收的依据。

第十六条 争议解决

跨领域活动中出现边界冲突时,按以下顺序裁决:

(一)涉及多个领域质量标准的冲突,以目标数据集的消费方需求为优先判断依据。

(二)涉及多个领域命名或分类的冲突,以《量潮云知识工程章程》的分类一致性规则为参考。

(三)涉及多个领域流程规范冲突的,由涉及各领域的责任人协商解决。无法达成一致的,提交产品研发负责人裁定。

第七章 附则

第十七条 章程效力

本章程经公司治理机构审议通过,自发布之日起生效。

第十八条 解释权

本章程之解释,应遵循可追溯之基本原则。各项条文不得被解释为阻碍合理的数据工程创新或为数据交付设置不必要的障碍。