生成知识引导
图片来源:Liu 等人 2022
LLMs(大型语言模型)不断得到改进,其中一种流行的技术是能够整合知识或信息,以帮助模型做出更准确的预测。
借鉴类似的思路,模型是否也可以在进行预测之前生成知识呢?这正是Liu 等人 2022的论文中尝试的内容——生成可用作提示的知识。特别是,对于类似常识推理的任务,这种方法有多大帮助呢?
让我们尝试一个简单的提示:
提示:
高尔夫的一部分是试图比其他人获得更高的得分总数。是或否?
输出:
是。
这种错误揭示了LLMs在执行需要更多关于世界知识的任务时的局限性。我们如何通过知识生成来改进这一点呢?
首先,我们生成一些“知识”:
提示:
输入:希腊比墨西哥大。
知识:希腊面积约为131,957平方公里,而墨西哥面积约为1,964,375平方公里,使墨西哥比希腊大139%。
输入:眼镜总是会起雾。
知识:当您的汗水、呼吸和周围湿度的水蒸气落在冷表面上时,会发生凝结,然后变成微小的液滴,形成您看到的雾。您的镜片相对于您的呼吸会比较凉爽,尤其是在外部空气寒冷时。
输入:鱼有思考能力。
知识:鱼比它们看起来更聪明。在许多领域,如记忆力,它们的认知能力与甚至超过“更高级”脊椎动物,包括非人类灵长类动物相匹敌。鱼的长期记忆帮助它们追踪复杂的社会关系。
输入:一个人一生中吸烟很多支香烟的一个常见后果 是患肺癌的几率高于正常水平。
知识:那些一生中平均每天吸烟少于一支香烟的人,患肺癌的风险是从不吸烟者的9倍。那些每天吸烟1到10支香烟的人,患肺癌的风险几乎是从不吸烟者的12倍。
输入:一块石头和一颗鹅卵石大小相同。
知识:鹅卵石是根据乌登-温特沃斯沉积学尺度的粒径为4到64毫米的岩屑。鹅卵石通常被认为比颗粒(直径2到4毫米)大,比卵石(直径64到256毫米)小。
输入:高尔夫的一部分是试图比其他人获得更高的得分总数。
知识:
知识 1:
高尔夫的目标是以最少的杆数打完一组球洞。一轮高尔夫比赛通常包括18个球洞。每个球洞在标准高尔夫球场上一轮比赛中只打一次。每杆计为一分,总杆数用来确定比赛的获胜者。
知识 2:
高尔夫是一项精密的球杆球类运动,竞技选手(或高尔夫球手)使用多种类型的球杆,以尽可能少的杆数将球打入球场上的一系列球洞。目标是以最低的杆数完成球场,计算方法是将每个球洞上的总杆数相加。得分最低的球员赢得比赛。
我们使用了Liu 等人 2022论文中提供的提示。
下一步是整合这些知识并得出预测。我将问题重新格式化为问答格式,以指导回答的格式。
提示:
问题:高尔夫的一部分是试图比其他人获得更高的得分总数。是或否?
知识:高尔夫的目标是以最少的杆数打完一组球洞。一轮高尔夫比赛通常包括18个球洞。每个球洞在标准高尔夫球场上一轮比赛中只打一次。每杆计为一分,总杆数用来确定比赛的获胜者。
解释和回答: