AI数据标注

Contents

AI数据标注#

提示词引导#

(怎么通过大模型进行长文本分解,并逐步筛选出目标,方案1)

符合直觉的,我们提供的的文本越短,AI回答的正确率越高,所以要将长文本根据包含的内容切割成各个文本块。

提示词引导思路上是利用大模型进行:

  1. 正文切割成段落或句子,从这些段落和句子中摘要成半结构化数据。

  2. 从半结构化数据中筛选结构化数据。

在具体实现上大概是让大模型找到合适文本块,在在文本块中找到想要的答案 这个方案没完成,不知道效果

RAG#

(利用RAG进行文本初步提取,方案2)

和上面的方案同样,也是为了缩小答案范围,提高正确率

但RAG方案直接使用了阿里的embedding API,通过比较返回向量间的相似度进行排名,来找到合适文本块。

可惜的是利用RAG进行字段相关文本的提取的效果不佳,原因可能是:

  1. 有些文本很难比较相似度,例如有一个字段是“户籍”,它对应的文本可能只是:“XXX,XX人,XXX年出生,XXXX人”这类的句子

  2. 重复的干扰项,例如“肇事人“,参与案件的人可能不止一个,全文会提到其他的人物姓名

如果避免上述两点,RAG表现差强人意。