Zero-shot Prompting

零样本提示

今天的大型语言模型(LLMs),如GPT-3.5 Turbo、GPT-4和Claude 3,经过调整以遵循指令,并在大量数据上进行训练。大规模的训练使这些模型能够以“零样本”方式执行某些任务。零样本提示意味着用于与模型交互的提示不会包含示例或演示。零样本提示直接指示模型执行任务,而无需任何额外的示例来引导它。

我们在前一节中尝试了一些零样本示例。以下是我们使用的一个示例(即文本分类):

提示:

Classify the text into neutral, negative or positive. 

Text: I think the vacation is okay.
Sentiment:

输出:

Neutral

请注意,在上面的提示中,我们没有为模型提供任何文本及其分类的示例,LLM已经理解了“情感”——这就是零样本能力在起作用。

指令调优已被证明可以改善零样本学习Wei et al. (2022) (在新标签页中打开)。指令调优本质上是通过指令描述的数据集对模型进行微调的概念。此外,RLHF (在新标签页中打开)(从人类反馈中进行的强化学习)已被采用来扩展指令调优,其中模型被调整以更好地适应人类偏好。这一最新发展推动了像ChatGPT这样的模型。我们将在接下来的章节中讨论所有这些方法和技术。

当零样本不起作用时,建议在提示中提供演示或示例,这会导致少样本提示。在下一节中,我们将演示少样本提示。