AI数据标注#
提示词引导#
(怎么通过大模型进行长文本分解,并逐步筛选出目标,方案1)
符合直觉的,我们提供的的文本越短,AI回答的正确率越高,所以要将长文本根据包含的内容切割成各个文本块。
提示词引导思路上是利用大模型进行:
正文切割成段落或句子,从这些段落和句子中摘要成半结构化数据。
从半结构化数据中筛选结构化数据。
在具体实现上大概是让大模型找到合适文本块,在在文本块中找到想要的答案 这个方案没完成,不知道效果
RAG#
(利用RAG进行文本初步提取,方案2)
和上面的方案同样,也是为了缩小答案范围,提高正确率
但RAG方案直接使用了阿里的embedding API,通过比较返回向量间的相似度进行排名,来找到合适文本块。
可惜的是利用RAG进行字段相关文本的提取的效果不佳,原因可能是:
有些文本很难比较相似度,例如有一个字段是“户籍”,它对应的文本可能只是:“XXX,XX人,XXX年出生,XXXX人”这类的句子
重复的干扰项,例如“肇事人“,参与案件的人可能不止一个,全文会提到其他的人物姓名
如果避免上述两点,RAG表现差强人意。