概述¶
本文件旨在明确数据服务项目中不同任务环节的定义、边界与操作范围,为客户需求对接、项目报价与交付管理提供清晰依据。项目启动时,应首要确认数据来源与状态,该判断直接影响工作范围界定与成本评估。
数据采集¶
定义¶
数据采集是指项目团队根据业务需求,主动从外部获取原始数据的过程。这通常包括使用工具从公开网站、数据平台或网络资源中下载、爬取或调取与项目匹配的数据。
来源判定与工作范围确认¶
在项目立项阶段,必须首先明确数据来源:
我方采集:若数据需从外部公开或授权渠道获取,则启动本环节。工作包括根据需求设计采集方案、使用合规工具实施、处理反爬机制、并确保数据完整性。
客户提供:若数据由客户直接提供(例如发送文件、数据库或指定具体的公开数据集及其获取路径),则本环节不适用。需立即转入对客户提供数据的“状态评估”流程(见下文“数据清洗”部分)。
典型案例:百度贴吧内容爬取(用于后续舆情分析)¶
客户业务目标:了解公众对某款新上市手机的讨论情绪,为产品改进和营销策略提供依据。
✅ 我们做什么(属于数据采集):
根据客户指定的主题关键词(如“XX手机 续航”),在百度贴吧公开页面中自动搜索并定位相关帖子;
使用合规的爬虫工具,从这些公开帖子中提取原始内容,包括:发帖时间、用户名、帖子正文、回复内容、点赞数等结构化字段;
将采集到的原始数据按标准格式(如 JSON)保存,确保内容完整、可追溯、未被修改;
遵守网站 robots 协议和公开数据使用规范,仅采集公开可见、未设访问权限的内容。
❌ 我们不做什么(不属于数据采集):
不会分析帖子内容的情感倾向(例如判断“这条评论是负面的”)—— 这属于“数据精炼”;
不会对采集到的数据进行清洗或修正(例如删除广告帖、合并重复内容、统一时间格式)—— 这属于“数据清洗”;
不会人工阅读或标注每条帖子(例如打上“抱怨电池”“夸赞屏幕”等标签)—— 这属于“数据标注”。
数据清洗¶
定义¶
数据清洗是指对原始数据进行保留、整理与结构化处理,删除无关或重复内容,统一数据格式(如日期、单位、编码方式),填充缺失值,修正明显错误值(如负数年龄、无效邮箱等)。此过程仅对原始数据进行筛选与标准化,不引入新的语义信息,也不对数据内容进行实质性修改或新增。
立项时关键行动¶
当数据由客户提供时,必须在项目启动时评估其为“脏数据”或“干净数据”:
脏数据:指存在“结构混乱”(如多表混杂、格式不一致)、“内容错误”(如逻辑矛盾、无效值)或“信息缺失”等问题的原始数据。必须进行数据清洗。
干净数据:指数据结构规整、格式统一、内容无误、可直接用于分析或作为精炼/标注输入的原始数据。
针对脏数据的处理流程¶
与客户明确脏数据的具体问题(如问卷数据中大量逻辑错误、格式混乱),并将此评估作为设计报告与报价单的核心依据。
若脏数据问题源于数据源本身(如问卷设计缺陷导致的普遍逻辑错误),需与客户沟通,建议其提供更规范的原始数据源。若客户无法更换数据源,则按评估的脏数据清洗复杂度进行报价。
设计报告中需清晰列明:客户提供的源数据样例、发现的具体问题、期望产出的干净数据结构。
典型案例:问卷数据清洗¶
客户业务目标:客户开展了一轮用户满意度调研,收集了 10,000 份问卷,计划将清洗后的数据用于内部汇报、交叉分析或后续建模。但原始数据存在格式混乱、无效填写、重复提交等问题,需先进行标准化处理。
✅ 我们做什么(属于数据清洗):
修正明显逻辑错误(例如将“年龄=200”或“使用时长=-3个月”标记为无效或缺失);
统一数据格式(例如将所有日期字段标准化为 YYYY-MM-DD,邮箱和手机号按规范校验);
处理缺失值(例如对必填字段空值按客户确认策略标记或剔除,非关键字段保留空值);
剔除重复或无效样本(例如基于答题时间、IP 或设备 ID 识别并删除重复提交或敷衍作答的记录);
整合杂乱结构(例如将多张 Excel 表或嵌套 JSON 合并为一张字段清晰、命名规范的结构化表格)。
❌ 我们不做什么(不属于数据清洗):
不判断用户真实态度(例如不因低分就定义其为“负面反馈”)—— 这属于“数据精炼”;
不用模型预测补全缺失内容(例如不推测“缺失年龄可能为35岁”)—— 这属于“数据精炼”;
不生成分析结论或可视化图表(例如不出具“40岁以上用户满意度更高”的报告)—— 这属于“数据精炼”;
不组织人工对原始评论进行标注以构建AI训练集(例如打上“正面/中性/负面”标签,用于训练情感分析模型)—— 这属于“数据标注”。
数据精炼¶
定义¶
数据精炼是指基于清洗后的干净数据,通过分析或算法生成具有业务价值的衍生结果。典型场景包括:对评论文本进行情感倾向判断、生成可视化图表、构建用于预测的算法模型等。此类操作输出的是基于原始数据的分析结果,而非原始数据本身。
典型案例:社交媒体文本挖掘(用于产品反馈洞察)¶
客户业务目标:从已清洗、整理完成的用户发帖数据中自动识别用户发帖目的(如“咨询功能”“投诉售后”“推荐产品”),并按主题分类,形成结构化洞察报告,用于产品迭代和客服资源调配。
✅ 我们做什么(属于数据精炼):
使用大语言模型或规则引擎,对每条清洗后的文本自动判断其发帖目的(例如将“怎么关闭自动更新?”归类为“功能咨询”);
通过关键词识别与语义分析,提取高频主题(如“电池”“卡顿”“客服响应慢”)并统计分布;
对文本进行情感倾向分类(例如输出“正面/中性/负面”标签),并计算各主题下的情感比例;
生成结构化结果表(如每条文本对应“主题+情感+关键词”)及可视化图表(如主题热度趋势图、情感分布饼图)。
❌ 我们不做什么(不属于数据精炼):
不采集原始发帖数据(例如不去爬取微博、贴吧或论坛)—— 这属于“数据采集”;
不对原始文本进行清洗(例如不修正错别字、不统一编码)—— 这属于“数据清洗”;
不人工为文本打标签以构建AI训练集(例如不组织人员标注评论用于训练模型)—— 这属于“数据标注”。
数据标注¶
定义¶
数据标注是指以训练人工智能模型为目的,由人工对原始数据进行额外标注,赋予其明确的语义定义(例如将一段文本标记为“正面评价”)。只有同时满足“人工标注”和“用于AI训练”两个条件的操作,才属于数据标注。若标注行为不服务于AI训练(如仅为报表分类或内部归档),则不属于数据标注,而应归入数据清洗或数据精炼。
典型案例:人工标注用户评论情感(后续用于训练AI)¶
客户业务目标:希望我们整理出一份人工标注好的用户评论数据集,包含每条评论对应的情感标签(正面/中性/负面),以便其内部团队用于训练情感分析AI模型。
✅ 我们做什么(属于数据标注):
由经过培训的标注人员,人工阅读每一条原始用户评论;
根据客户提供的标注规范,为每条评论打上情感标签;
对争议样本进行多人标注与仲裁,确保标签一致性;
交付结构化的标注数据集(如 CSV:原始文本 + 情感标签)。
❌ 我们不做什么(不属于数据标注):
不清洗原始评论(如去广告、纠错字)—— 这属于“数据清洗”;
不生成情感分析报告或可视化—— 这属于“数据精炼”;
不训练、不部署、不测试任何AI模型。