研究生工作分类案例研究

Clavié 等人，2023 提供了一个关于提示工程应用于生产系统中的中等规模文本分类用例的案例研究。他们使用了一个任务，即对工作是否适合最近的毕业生，即真正的“入门级工作”进行分类，并评估了一系列提示工程技术，并使用 GPT-3.5 (gpt-3.5-turbo) 报告了他们的结果。

该研究表明，LLMs在所有经过测试的模型中表现最好，包括 DeBERTa-V3 中的一个极强基准。gpt-3.5-turbo 在所有关键指标上也明显优于较旧的 GPT3 变体，但需要额外的输出解析，因为它似乎比其他变体更难坚持模板。

他们的提示工程方法的关键发现包括：

对于像这样不需要专业知识的任务，Few-shot CoT 提示在所有实验中表现不佳，远不如 Zero-shot 提示。
提示对引出正确推理的影响巨大。仅要求模型对给定的工作进行分类的 F1 分数为 65.6，而后提示工程模型实现了 91.7 的 F1 分数。
试图强迫模型坚持模板会降低所有情况下的性能（这种行为在 GPT-4 的早期测试中消失了，这些测试是在该论文之后进行的）。
许多小的修改对性能有巨大影响。
- 下表显示了进行测试的所有修改。
- 恰当地给出指示并重复关键点似乎是最大的性能驱动因素。
- 仅仅给模型一个（人类）名字并在对话中提到它，就能将 F1 分数提高 0.6 点。

	精确率	召回率	F1 值	模板坚持度
基准	61.2	70.6	65.6	79%
CoT	72.6	85.1	78.4	87%
Zero-CoT	75.5	88.3	81.4	65%
+rawinst	80	92.4	85.8	68%
+sysinst	77.7	90.9	83.8	69%
+bothinst	81.9	93.9	87.5	71%
+bothinst+mock	83.3	95.1	88.8	74%
+bothinst+mock+reit	83.8	95.5	89.3	75%
+bothinst+mock+reit+strict	79.9	93.7	86.3	98%
+bothinst+mock+reit+loose	80.5	94.8	87.1	95%
+bothinst+mock+reit+right	84	95.9	89.6	77%
+bothinst+mock+reit+right+info	84.9	96.5	90.3	77%
+bothinst+mock+reit+right+info+name	85.7	96.8	90.9	79%
+bothinst+mock+reit+right+info+name+pos	86.9	97	91.7	81%

模板粘性指的是模型按照期望的格式回答的频率。