Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

概述

本文件旨在明确数据服务项目中不同任务环节的定义、边界与操作范围,为客户需求对接、项目报价与交付管理提供清晰依据。项目启动时,应首要确认数据来源与状态,该判断直接影响工作范围界定与成本评估。

数据采集

定义

数据采集是指项目团队根据业务需求,主动从外部获取原始数据的过程。这通常包括使用工具从公开网站、数据平台或网络资源中下载、爬取或调取与项目匹配的数据。

来源判定与工作范围确认

在项目立项阶段,必须首先明确数据来源:

典型案例:百度贴吧内容爬取(用于后续舆情分析)

数据清洗

定义

数据清洗是指对原始数据进行保留、整理与结构化处理,删除无关或重复内容,统一数据格式(如日期、单位、编码方式),填充缺失值,修正明显错误值(如负数年龄、无效邮箱等)。此过程仅对原始数据进行筛选与标准化,不引入新的语义信息,也不对数据内容进行实质性修改或新增。

立项时关键行动

当数据由客户提供时,必须在项目启动时评估其为“脏数据”或“干净数据”:

针对脏数据的处理流程

  1. 与客户明确脏数据的具体问题(如问卷数据中大量逻辑错误、格式混乱),并将此评估作为设计报告与报价单的核心依据。

  2. 若脏数据问题源于数据源本身(如问卷设计缺陷导致的普遍逻辑错误),需与客户沟通,建议其提供更规范的原始数据源。若客户无法更换数据源,则按评估的脏数据清洗复杂度进行报价。

  3. 设计报告中需清晰列明:客户提供的源数据样例、发现的具体问题、期望产出的干净数据结构。

典型案例:问卷数据清洗

数据精炼

定义

数据精炼是指基于清洗后的干净数据,通过分析或算法生成具有业务价值的衍生结果。典型场景包括:对评论文本进行情感倾向判断、生成可视化图表、构建用于预测的算法模型等。此类操作输出的是基于原始数据的分析结果,而非原始数据本身。

典型案例:社交媒体文本挖掘(用于产品反馈洞察)

数据标注

定义

数据标注是指以训练人工智能模型为目的,由人工对原始数据进行额外标注,赋予其明确的语义定义(例如将一段文本标记为“正面评价”)。只有同时满足“人工标注”和“用于AI训练”两个条件的操作,才属于数据标注。若标注行为不服务于AI训练(如仅为报表分类或内部归档),则不属于数据标注,而应归入数据清洗或数据精炼。

典型案例:人工标注用户评论情感(后续用于训练AI)