数据处理任务的定义和划分 - 量潮科技工作手册

概述¶

本文件旨在明确数据服务项目中不同任务环节的定义、边界与操作范围，为客户需求对接、项目报价与交付管理提供清晰依据。项目启动时，应首要确认数据来源与状态，该判断直接影响工作范围界定与成本评估。

数据采集¶

定义¶

数据采集是指项目团队根据业务需求，主动从外部获取原始数据的过程。这通常包括使用工具从公开网站、数据平台或网络资源中下载、爬取或调取与项目匹配的数据。

来源判定与工作范围确认¶

在项目立项阶段，必须首先明确数据来源：

我方采集：若数据需从外部公开或授权渠道获取，则启动本环节。工作包括根据需求设计采集方案、使用合规工具实施、处理反爬机制、并确保数据完整性。
客户提供：若数据由客户直接提供（例如发送文件、数据库或指定具体的公开数据集及其获取路径），则本环节不适用。需立即转入对客户提供数据的“状态评估”流程（见下文“数据清洗”部分）。

典型案例：百度贴吧内容爬取（用于后续舆情分析）¶

客户业务目标：了解公众对某款新上市手机的讨论情绪，为产品改进和营销策略提供依据。
✅ 我们做什么（属于数据采集）：
- 根据客户指定的主题关键词（如“XX手机续航”），在百度贴吧公开页面中自动搜索并定位相关帖子；
- 使用合规的爬虫工具，从这些公开帖子中提取原始内容，包括：发帖时间、用户名、帖子正文、回复内容、点赞数等结构化字段；
- 将采集到的原始数据按标准格式（如 JSON）保存，确保内容完整、可追溯、未被修改；
- 遵守网站 robots 协议和公开数据使用规范，仅采集公开可见、未设访问权限的内容。
❌ 我们不做什么（不属于数据采集）：
- 不会分析帖子内容的情感倾向（例如判断“这条评论是负面的”）—— 这属于“数据精炼”；
- 不会对采集到的数据进行清洗或修正（例如删除广告帖、合并重复内容、统一时间格式）—— 这属于“数据清洗”；
- 不会人工阅读或标注每条帖子（例如打上“抱怨电池”“夸赞屏幕”等标签）—— 这属于“数据标注”。

数据清洗¶

定义¶

数据清洗是指对原始数据进行保留、整理与结构化处理，删除无关或重复内容，统一数据格式（如日期、单位、编码方式），填充缺失值，修正明显错误值（如负数年龄、无效邮箱等）。此过程仅对原始数据进行筛选与标准化，不引入新的语义信息，也不对数据内容进行实质性修改或新增。

立项时关键行动¶

当数据由客户提供时，必须在项目启动时评估其为“脏数据”或“干净数据”：

脏数据：指存在“结构混乱”（如多表混杂、格式不一致）、“内容错误”（如逻辑矛盾、无效值）或“信息缺失”等问题的原始数据。必须进行数据清洗。
干净数据：指数据结构规整、格式统一、内容无误、可直接用于分析或作为精炼/标注输入的原始数据。

针对脏数据的处理流程¶

与客户明确脏数据的具体问题（如问卷数据中大量逻辑错误、格式混乱），并将此评估作为设计报告与报价单的核心依据。
若脏数据问题源于数据源本身（如问卷设计缺陷导致的普遍逻辑错误），需与客户沟通，建议其提供更规范的原始数据源。若客户无法更换数据源，则按评估的脏数据清洗复杂度进行报价。
设计报告中需清晰列明：客户提供的源数据样例、发现的具体问题、期望产出的干净数据结构。

典型案例：问卷数据清洗¶

客户业务目标：客户开展了一轮用户满意度调研，收集了 10,000 份问卷，计划将清洗后的数据用于内部汇报、交叉分析或后续建模。但原始数据存在格式混乱、无效填写、重复提交等问题，需先进行标准化处理。
✅ 我们做什么（属于数据清洗）：
- 修正明显逻辑错误（例如将“年龄=200”或“使用时长=-3个月”标记为无效或缺失）；
- 统一数据格式（例如将所有日期字段标准化为 YYYY-MM-DD，邮箱和手机号按规范校验）；
- 处理缺失值（例如对必填字段空值按客户确认策略标记或剔除，非关键字段保留空值）；
- 剔除重复或无效样本（例如基于答题时间、IP 或设备 ID 识别并删除重复提交或敷衍作答的记录）；
- 整合杂乱结构（例如将多张 Excel 表或嵌套 JSON 合并为一张字段清晰、命名规范的结构化表格）。
❌ 我们不做什么（不属于数据清洗）：
- 不判断用户真实态度（例如不因低分就定义其为“负面反馈”）—— 这属于“数据精炼”；
- 不用模型预测补全缺失内容（例如不推测“缺失年龄可能为35岁”）—— 这属于“数据精炼”；
- 不生成分析结论或可视化图表（例如不出具“40岁以上用户满意度更高”的报告）—— 这属于“数据精炼”；
- 不组织人工对原始评论进行标注以构建AI训练集（例如打上“正面/中性/负面”标签，用于训练情感分析模型）—— 这属于“数据标注”。

数据精炼¶

定义¶

数据精炼是指基于清洗后的干净数据，通过分析或算法生成具有业务价值的衍生结果。典型场景包括：对评论文本进行情感倾向判断、生成可视化图表、构建用于预测的算法模型等。此类操作输出的是基于原始数据的分析结果，而非原始数据本身。

典型案例：社交媒体文本挖掘（用于产品反馈洞察）¶

客户业务目标：从已清洗、整理完成的用户发帖数据中自动识别用户发帖目的（如“咨询功能”“投诉售后”“推荐产品”），并按主题分类，形成结构化洞察报告，用于产品迭代和客服资源调配。
✅ 我们做什么（属于数据精炼）：
- 使用大语言模型或规则引擎，对每条清洗后的文本自动判断其发帖目的（例如将“怎么关闭自动更新？”归类为“功能咨询”）；
- 通过关键词识别与语义分析，提取高频主题（如“电池”“卡顿”“客服响应慢”）并统计分布；
- 对文本进行情感倾向分类（例如输出“正面/中性/负面”标签），并计算各主题下的情感比例；
- 生成结构化结果表（如每条文本对应“主题+情感+关键词”）及可视化图表（如主题热度趋势图、情感分布饼图）。
❌ 我们不做什么（不属于数据精炼）：
- 不采集原始发帖数据（例如不去爬取微博、贴吧或论坛）—— 这属于“数据采集”；
- 不对原始文本进行清洗（例如不修正错别字、不统一编码）—— 这属于“数据清洗”；
- 不人工为文本打标签以构建AI训练集（例如不组织人员标注评论用于训练模型）—— 这属于“数据标注”。

数据标注¶

定义¶

数据标注是指以训练人工智能模型为目的，由人工对原始数据进行额外标注，赋予其明确的语义定义（例如将一段文本标记为“正面评价”）。只有同时满足“人工标注”和“用于AI训练”两个条件的操作，才属于数据标注。若标注行为不服务于AI训练（如仅为报表分类或内部归档），则不属于数据标注，而应归入数据清洗或数据精炼。

典型案例：人工标注用户评论情感（后续用于训练AI）¶

客户业务目标：希望我们整理出一份人工标注好的用户评论数据集，包含每条评论对应的情感标签（正面/中性/负面），以便其内部团队用于训练情感分析AI模型。
✅ 我们做什么（属于数据标注）：
- 由经过培训的标注人员，人工阅读每一条原始用户评论；
- 根据客户提供的标注规范，为每条评论打上情感标签；
- 对争议样本进行多人标注与仲裁，确保标签一致性；
- 交付结构化的标注数据集（如 CSV：原始文本 + 情感标签）。
❌ 我们不做什么（不属于数据标注）：
- 不清洗原始评论（如去广告、纠错字）—— 这属于“数据清洗”；
- 不生成情感分析报告或可视化—— 这属于“数据精炼”；
- 不训练、不部署、不测试任何AI模型。