生成知识引导

GENKNOW

图片来源：Liu 等人 2022

LLMs（大型语言模型）不断得到改进，其中一种流行的技术是能够整合知识或信息，以帮助模型做出更准确的预测。

借鉴类似的思路，模型是否也可以在进行预测之前生成知识呢？这正是Liu 等人 2022的论文中尝试的内容——生成可用作提示的知识。特别是，对于类似常识推理的任务，这种方法有多大帮助呢？

让我们尝试一个简单的提示：

提示：

高尔夫的一部分是试图比其他人获得更高的得分总数。是或否？

输出：

是。

这种错误揭示了LLMs在执行需要更多关于世界知识的任务时的局限性。我们如何通过知识生成来改进这一点呢？

首先，我们生成一些“知识”：

提示：

输入：希腊比墨西哥大。
知识：希腊面积约为131,957平方公里，而墨西哥面积约为1,964,375平方公里，使墨西哥比希腊大139%。

输入：眼镜总是会起雾。
知识：当您的汗水、呼吸和周围湿度的水蒸气落在冷表面上时，会发生凝结，然后变成微小的液滴，形成您看到的雾。您的镜片相对于您的呼吸会比较凉爽，尤其是在外部空气寒冷时。

输入：鱼有思考能力。
知识：鱼比它们看起来更聪明。在许多领域，如记忆力，它们的认知能力与甚至超过“更高级”脊椎动物，包括非人类灵长类动物相匹敌。鱼的长期记忆帮助它们追踪复杂的社会关系。

输入：一个人一生中吸烟很多支香烟的一个常见后果是患肺癌的几率高于正常水平。
知识：那些一生中平均每天吸烟少于一支香烟的人，患肺癌的风险是从不吸烟者的9倍。那些每天吸烟1到10支香烟的人，患肺癌的风险几乎是从不吸烟者的12倍。

输入：一块石头和一颗鹅卵石大小相同。
知识：鹅卵石是根据乌登-温特沃斯沉积学尺度的粒径为4到64毫米的岩屑。鹅卵石通常被认为比颗粒（直径2到4毫米）大，比卵石（直径64到256毫米）小。

输入：高尔夫的一部分是试图比其他人获得更高的得分总数。
知识：

知识 1：

高尔夫的目标是以最少的杆数打完一组球洞。一轮高尔夫比赛通常包括18个球洞。每个球洞在标准高尔夫球场上一轮比赛中只打一次。每杆计为一分，总杆数用来确定比赛的获胜者。

知识 2：

高尔夫是一项精密的球杆球类运动，竞技选手（或高尔夫球手）使用多种类型的球杆，以尽可能少的杆数将球打入球场上的一系列球洞。目标是以最低的杆数完成球场，计算方法是将每个球洞上的总杆数相加。得分最低的球员赢得比赛。

我们使用了Liu 等人 2022论文中提供的提示。

下一步是整合这些知识并得出预测。我将问题重新格式化为问答格式，以指导回答的格式。

提示：

问题：高尔夫的一部分是试图比其他人获得更高的得分总数。是或否？

知识：高尔夫的目标是以最少的杆数打完一组球洞。一轮高尔夫比赛通常包括18个球洞。每个球洞在标准高尔夫球场上一轮比赛中只打一次。每杆计为一分，总杆数用来确定比赛的获胜者。

解释和回答：

回答 1（非常高的置信度）：

不，高尔夫的目标不是比其他人获得更高的得分总数。相反，目标是以最少的杆数打完一组球洞。总杆数用来确定比赛的获胜者，而不是总分数。

问题：高尔夫的一部分是试图比其他人获得更高的总分。是或否？

知识：高尔夫是一项精密的球杆和球类运动，竞争选手（或高尔夫球手）使用多种类型的球杆将球击入球场上一系列球洞，以尽可能少的杆数完成。目标是以最低的得分完成球场，得分是通过计算每个球洞上所用杆数的总和得出的。得分最低的球员赢得比赛。

解释和回答：

答案 2（信心较低）：

是的，高尔夫的一部分就是试图比其他人获得更高的总分。每个球员都试图以最低的杆数完成球场，这是通过将每个洞上所用杆数相加来计算的。得分最低的球员赢得比赛。

这个例子发生了一些非常有趣的事情。在第一个答案中，模型非常有信心，但在第二个答案中却不是很有信心。我为演示目的简化了这个过程，但在得出最终答案时还有一些细节需要考虑。请查看论文以获取更多信息。 [20]