AI数据标注

AI数据标注#

（怎么通过大模型进行长文本分解，并逐步筛选出目标，方案1）

符合直觉的，我们提供的的文本越短，AI回答的正确率越高，所以要将长文本根据包含的内容切割成各个文本块。

提示词引导思路上是利用大模型进行：

在具体实现上大概是让大模型找到合适文本块，在在文本块中找到想要的答案这个方案没完成，不知道效果

（利用RAG进行文本初步提取，方案2）

和上面的方案同样，也是为了缩小答案范围，提高正确率

但RAG方案直接使用了阿里的embedding API，通过比较返回向量间的相似度进行排名，来找到合适文本块。

可惜的是利用RAG进行字段相关文本的提取的效果不佳，原因可能是：

如果避免上述两点，RAG表现差强人意。