数据标注#

定义#

数据标注是对原始数据(如文本、图像、音频、视频等)添加标签或注释的过程。这些标签能够为机器学习模型(包括大语言模型)提供可理解的信息,帮助模型学习数据中的模式和特征,从而使模型能够进行准确的预测、分类或生成任务。 例如,在图像识别领域,对于一张包含猫的照片,数据标注人员会在这张照片上标注“猫”这个标签。当机器学习模型训练时,它就可以通过大量带有“猫”标签的照片,学习猫的各种特征,如外形、颜色、纹理等,最终能够在遇到新的猫的图像时准确识别。

类型#

分类标注#

这是最常见的标注类型之一。它是将数据划分到不同的类别中。例如,在文本分类中,对于新闻文章,可以标注为“体育类”“财经类”“娱乐类”等。在图像分类中,对于交通标志的图像,可标注为“限速标志”“禁止通行标志”等。 以电子邮件分类为例,数据标注员会把邮件根据内容标注为“工作邮件”“垃圾邮件”“私人邮件”等类别,这样,邮件分类模型就可以根据这些标注学习如何区分不同类型的邮件。

框定标注(目标检测)#

主要用于图像和视频数据。标注人员需要在图像或视频帧中用矩形框(也可以是其他形状)等方式圈出目标物体,并标注物体的类别。比如在自动驾驶场景的图像数据中,标注员会框出汽车、行人、交通信号灯等物体,并分别标注它们的类别。 例如,在安防监控视频数据标注中,当要检测可疑人员时,标注员会在视频帧中框出人物形象,并标注“可疑人员”或“正常人员”,同时标注其位置等信息,帮助安防监控系统中的目标检测模型学习识别可疑行为。

语义分割标注#

这种标注比框定标注更精细,用于图像数据。它是将图像中的每个像素都分配一个类别标签,用于区分不同的物体或区域。比如在医学影像领域,对X光片或CT扫描图像进行语义分割标注,可以区分出骨骼、肌肉、器官等不同的组织部分。 以遥感卫星图像为例,通过语义分割标注,可以将图像中的土地、水域、植被、建筑物等不同的地物类型用不同的颜色(代表不同的类别标签)标注出来,这样的标注数据可以帮助构建土地利用类型识别模型。

序列标注#

适用于序列数据,如文本、音频等。在文本序列标注中,最典型的是命名实体识别(NER)。例如,对于句子“小明在北京大学读书”,标注员会将“小明”标注为“人名”,“北京大学”标注为“机构名”。 在语音识别中的序列标注,可以标注语音中的音素、单词等序列元素,帮助语音识别模型学习语音和文本之间的转换关系。