【RAG 论文】SKR：Self-Knowledge 指导下的 RAG

论文：Self-Knowledge Guided Retrieval Augmentation for Large Language Models
⭐⭐⭐⭐
Tsinghua, arXiv:2310.05002

文章目录

- 一、论文速读
- 二、实现细节
- - 2.1 数据的收集
  - 2.2 引出 LLM 的 Self-Knowledge 的方法
  - - 1）Direct Prompting
    - 2）In-Context Learning
    - 3）Training a Classifier
    - 4）KNN（k-nearest-neighbor）
- 三、实验结果及分析

一、论文速读

传统 RAG 的思路是引入外部知识来增强 LLM 的生成，但是现在的研究发现，有时候引入检索到的文档反而会给 LLM 的生成产生消极影响。

为了更好利用 LLM 的内部参数化知识和外部世界知识，我们需要激发模型识别自己知道还是不知道的能力，也被称为 self-knowledge。因此，本工作提出了 SKR（Self-Knowledge guided Retrieval augmentation）：当 LLM 面对一个 user query，先识别出 LLM 知不知道这个问题，如果知道的话就直接让 LLM 回复，如果不知道的话就调用 retriever 进行检索。

二、实现细节

该工作在 QA 的场景下做的研究，首先收集了一批研究数据，然后提出了四个方法来激发 LLM 的 Self-Knowledge 的能力。

2.1 数据的收集

对于已有的 QA 数据集，我们希望把其中的所有 question 分成两类：LLM "知道"的和"不知道"的，即 $D^+$ 和 $D^-$ 。

给定一个 question $q_i$ ，我们先直接把它输入给 LLM 得到 answer $\alpha(q_i)$ ，然后再把它调用 retriever 后以 RAG 的形式输入给 LLM 得到 answer $\alpha^R(q_i)$ ，然后我们拿 ground-truth answer 来衡量两种方式得到的 LLM answer：

如果 $\alpha(q_i)$ 和 $\alpha^R(q_i)$ 都不正确，直接丢弃 question $q_i$
如果 $E[\alpha(q_i)] \ge E[\alpha^R(q_i)]$ ，那就把 question 归为 $D^+$
反之则归为 $D^-$

其中 $E[\cdot]$ 是一个 evaluation metric，比如 accuracy。

2.2 引出 LLM 的 Self-Knowledge 的方法

论文提出了四种方法：direct prompting、in-context learning、classifier、KNN，下面分别介绍一下。

1）Direct Prompting

也就是设计 prompt template 然后填充 question 后，直接问 LLM 是否需要额外信息来辅助生成。prompt template 如下：

2）In-Context Learning

基于前面的 direct prompting，首先给 LLM 几个示例，教会它输出 Yes 或者 No，然后再问他是否需要更多信息来辅助增强，如下图所示：

3）Training a Classifier

使用之前的数据集，基于 BERT-base 训练一个二分类的 classifier，从而决定一个 question 要不要进行检索。

4）KNN（k-nearest-neighbor）

这里基于一个 motivation：如果两个 question 在语义嵌入空间中相近，那么 LLM 会倾向于对两个 question 展示出相似的 self-knowledge。

于是，可以使用一个 pre-trained fixed encoder 来对 question 做 KNN 从而推断出它的 label。

三、实验结果及分析

论文在 5 个 QA 数据集上进行了实验，最终，KNN 的方法在 5 个数据集上平均表现最好，而 direct prompting 的方法则表现较差。

论文还发现，无论是内部知识还是外部知识，都存在自己的限制：

像 CoT 这样利用 LLM 内部知识的方法，并不总是能有效提升效果
检索文档这样的利用外部知识的方法，也不总是有用的，有时甚至会让模型表现更差

论文还做了如下的分析：

不同 template 的 self-knowledge 影响：发现所有设计的模板，都可以让 LLM 表达出自己的响应。论文发现，LLM 对于自己认为可以回答的问题，准确率可以达到 70%~73%，这也表明仍有 30% 的问题，模型是不知道自己“不知道”的。
不同数据集的 self-knowledge 影响：发现不同的方法在不同的数据集上会有一定的差距，这可能与数据集的问题有关。
训练数据大小的影响：随着训练数据的增加，性能逐渐提高，这说明从训练数据中收集的 self-knowledge 是有价值的。
不同知识源的影响：整体来看，Wikipedia 作为外部知识源可以让 LLM 表现更好。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/596621.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！