第一章 总则¶
第一条 制定依据
本章程依据《量潮科技基本章程》和《量潮云产品研发章程》制定,旨在建立量潮云产品线知识工程的标准化规范。
第二条 目的
为建立从非结构化文本到结构化知识的标准化提取规则,确保提取结果准确、分类体系一致、契约与源文档同步,特制定本章程。
第三条 适用范围
本章程适用于量潮云(qtcloud)产品线所有涉及从自然语言文档提取结构化知识的活动,包括但不限于资产类型定义、分类体系、规则参数、状态机等 JSON/YAML 契约的创建与维护。
第四条 定义
(一)源文档,指被提取知识的自然语言文档,存储于工作档案(data/profile、docs/handbook、docs/tutorial 等)中。
(二)结构化契约,指从源文档中提取的 JSON/YAML 格式知识定义,如 category.json。
(三)提取,指从源文档中识别、抽象并编码为结构化契约的过程。
(四)分类体系,指一组结构化的分类条目及其层级关系,用于对数字资产进行统一归类。
第二章 提取规范¶
第五条 提取准确度
结构化契约的内容应当忠实反映源文档的意图,不得在提取过程中引入源文档中不存在的信息或省略源文档中的关键约束。
第六条 可追溯性
每份结构化契约应当在元数据中记录其对应的源文档路径和提取日期。当源文档内容发生变更时,对应的结构化契约应当同步更新。
第七条 边界治理
并非所有自然语言内容都适合提取为结构化数据。以下类型的内容应当保留在自然语言中,不进行结构化提取:
(一)描述性说明、举例、备注等辅助理解的内容; (二)时效性强的操作指引; (三)尚未稳定、仍在迭代中的概念。
提取前应当评估该知识的稳定性:是否已经过充分讨论、是否已有明确的分类边界、是否被多个消费方需要。
第三章 分类体系管理¶
第八条 分类注册
新增分类条目前,应当先检查现有分类体系中是否已有覆盖同一概念的条目。避免同一概念在不同位置上出现不同命名或不同层级。
第九条 分类一致性
同一分类条目在全仓库范围内应当使用统一的标识(id)。不同板块之间引用同一分类时,应当使用同一 id,不得各自重复定义。
第十条 分类变更
分类条目的新增、合并、拆分或删除,应当同步更新所有引用该分类的结构化契约,并在 CHANGELOG 中记录变更说明。
第四章 契约与源文档同步¶
第十一条 同步义务
源文档发生实质性变更时,对应的结构化契约应当在同一次发布中同步更新。禁止在源文档更新后结构化契约长期保持旧版本。
第十二条 契约版本对齐
结构化契约的版本号应当与所属档案板块的发布版本保持一致。当契约内容变更时,所属档案应当发布新版本。
第五章 验收标准¶
第十三条 知识工程产出交付时,结构化契约应当满足以下条件:
(一)内容准确反映源文档意图; (二)元数据中包含源文档路径和提取日期; (三)不存在与已有分类体系冲突的分类条目; (四)源文档最近一次实质性变更后,契约已同步更新。
第六章 跨领域边界¶
第十四条 领域交叉识别
知识工程活动可能与其他工程领域产生交叉。当一项活动同时涉及多个领域时,应当首先识别各领域的边界:
(一)知识工程与数据工程的交叉:从结构化数据集中提取分类体系或元数据定义的,数据集的加工与管理适用《量潮云数据工程章程》,知识提取与分类规范适用本章程。
(二)知识工程与产品研发的交叉:结构化契约被产品端直接引用时,契约的生成与更新适用本章程,产品端的开发适配适用《量潮云产品研发章程》。
(三)知识工程与审计的交叉:涉及知识准确度和分类一致性的审核评估,评估方法适用本章程,审计流程适用公司级审计章程。
第十五条 交叉领域的主从规则
跨领域活动的主从关系按以下规则确定:
(一)当活动的主要产出是结构化契约或分类体系时,本章程为主,其他相关章程为从。
(二)当活动的主要产出是其他领域的产品时,该领域的章程为主,本章程为从。
(三)主从关系应当在任务立项时明确记录,作为后续验收的依据。
第十六条 争议解决
跨领域活动中出现边界冲突时,按以下顺序裁决:
(一)涉及多个领域知识准确度的冲突,以源文档的原始意图为优先判断依据。
(二)涉及多个领域分类定义的冲突,以本章程的分类一致性规则为参考基准。
(三)涉及多个领域流程规范冲突的,由涉及各领域的责任人协商解决。无法达成一致的,提交产品研发负责人裁定。
第七章 附则¶
第十七条 章程效力
本章程经公司治理机构审议通过,自发布之日起生效。
第十八条 解释权
本章程之解释,应遵循忠实源文档之基本原则。各项条文不得被解释为阻碍合理的知识工程创新或人为抬高结构化提取的门槛。