质疑 LLaMA-1/2、GPT-3.5/4 所需的全部原则说明

抽象

本文介绍了 26 条指导原则，旨在简化大型语言模型的查询和提示过程。我们的目标是简化为各种规模的大型语言模型制定问题的基本概念，检查它们的能力，并增强用户对不同规模的大型语言模型在输入不同提示时行为的理解。在LLaMA-1/2（7B、13B和70B）、GPT-3.5/4上进行了广泛的实验，以验证所提出的原理在指令和提示设计方面的有效性。我们希望这项工作能够为从事大语言模型提示的研究人员提供更好的指导。项目页面可在 https://github.com/VILA-Lab/ATLAS 获得。

1. 介绍

"提示工程是与生成式大型语言模型进行通信的艺术。"

ChatGPT，2023 年

ChatGPT 等大型语言模型（LLM）在各个领域和任务中表现出令人印象深刻的能力，例如回答问题、数学推理、代码生成等。然而，它们的应用和用法，特别是在设计最佳指令或提示时，有时对普通用户来说可能不清楚。在这项工作中，我们旨在为开发人员或普通用户在查询和与 LLM 交互时揭示这些奥秘，并通过简单地策划更好的提示来进一步提高预训练 LLM 的响应质量。

图 1：应用原则前后的提示和相应响应的示例。左边是 GPT-4 的原始推广者及其响应，右边是原则性提示和相关响应。使用原则 5 和 6。

鉴于由于效率低下，对于大多数用户和开发人员来说，直接针对特定任务微调 LLM 往往不切实际或无法实现，因此研究界已将注意力转向提示的优化。提示工程技术需要用自然语言手动或通过自动方式制定精确的、特定于任务的指令，并仔细选择代表性示例以包含在提示中，已成为法学硕士研究的核心领域。尽管做出了这些专注的努力，但可靠地指导法学硕士产生具体的响应并充分利用预训练法学硕士的能力的任务仍然构成了相当大的挑战。

在这项工作中，我们提出了全面的原则性说明，以提高 LLM 提示的质量。具体来说，我们研究了输入不同类型和表述的提示时的广泛行为，例如将目标受众整合到提示中，例如，添加“受众是该领域的专家”，或“受众是 5 岁的孩子”“，以及LLM的其他多个方面的特点。我们的研究结果表明，较大的模型具有相当大的模拟能力。提供的任务或指令越精确，模型执行的效率就越高，使其响应更符合我们的期望。这表明法学硕士不仅记住训练数据，而且能够调整这些信息以适应不同的提示，即使核心查询保持不变。因此，事实证明，为法学硕士分配特定角色作为引出更符合我们预期结果的输出的一种手段是有益的。

我们在第 3 节中详细阐述了 LLM 提示的原则性说明，提供了进一步的动机，并详细介绍了几个具体的设计原则。在第 4 节中，我们通过实验表明，与 LLM 的标准提示相比，所提出的原则可以产生更高质量、更简洁、更真实、更复杂或更复杂的响应。具体来说，通过手动设计的 ATLAS 基准测试，每个原则都包含多个问题，我们引入的专门提示将 LLM 响应的质量和准确性平均提高了 57.7% 和 36.4%。分别应用于 GPT-4 时。此外，随着模型规模的增加，改进更加明显，例如，从 LLaMA-2-7B 迁移到 GPT-4 时的性能提升超过 20%。

2. 相关工作

大型语言模型

大型语言模型（LLM）的发展对于推进自然语言处理（NLP）至关重要。本节回顾了法学硕士的主要发展，为当前研究奠定了基础。从 Google 的 BERT 开始通过其双向训练方法彻底改变了上下文理解，而 T5 通过将各种 NLP 任务统一到一个框架中，进一步推进了该领域的发展。同时，GPT-1 引入了一种利用 Transformer 架构进行无监督学习的开创性模型。紧随其后的是它的继任者 GPT-2 将其参数数量大幅扩大到 15 亿个，在文本生成方面表现出卓越的能力。然后，GPT-3 标志着规模和功能上的重大飞跃，拥有 1750 亿个参数，并展示了对各种语言任务的熟练程度。

对于最近提出的其他 LLM，Gopher，不仅凭借其 2800 亿参数模型的先进语言处理能力，还将伦理考虑带到了最前沿。Meta 的 LLaMA 系列强调了效率的重要性，暗示了用更少的资源实现强大的性能，这是 Chinchilla 也倡导的概念，该法案提出，经过优化训练的较小模型可以取得卓越的结果。这一系列创新中的最新产品是 Mistral 在效率和性能方面表现出色，优于大型型号。这一轨迹中最近的里程碑是 OpenAI 的 GPT-4 和谷歌的 Gemini 家族。它们凭借增强的理解和生成能力代表了该领域的另一项重大进步，为法学硕士在各个领域的应用树立了新的基准。

促使

促使作为与法学硕士交互的一个独特方面及其无需微调模型的简单性，已经发展成为一个细致入微的研究领域，凸显了用户输入和法学硕士响应之间错综复杂的关系。早期的探索，例如，深入研究了不同的提示设计如何极大地影响语言模型的性能和输出，标志着提示工程的诞生。这一领域迅速扩展，揭示了提示在少样本和零样本学习场景中的关键作用，例如与 GPT-3 配合使用，其中精心设计的提示使模型能够以最少的先前示例执行任务。除了单纯的任务指导之外，最近的研究还转向理解提示中的语义和上下文细微差别，研究细微的变化如何导致法学硕士的显着不同响应。

问我任何问题 引入提示，重点是使用多个不完美的提示并将它们聚合以提高模型性能，特别是在问答格式中。另一种是思维链法，其中模型生成一系列中间推理步骤以提高复杂任务的性能。此外，从最少到最多的提示 一种将复杂问题分解为更简单的子问题的新颖策略，显着增强了模型解决比提示中呈现的更具挑战性的问题的能力。探讨了解释的有效性，发现解释可以增强法学硕士在复杂任务上的学习能力。此外，还使用 ChatGPT 检查了提示工程技术目录，强调了即时工程在增强软件开发和教育中的 LLM 应用方面的重要性。它还强调，有效的提示设计对于提高法学硕士性能至关重要，特别是在编码实践和学习体验方面。最后，定向刺激提示 提出了一个新颖的框架，该框架使用可调策略模型来生成辅助提示，指导法学硕士实现特定的期望结果。这种提示策略的多样性凸显了法学硕士快速发展的格局，为更有效地利用其能力提供了多种方向。

3. 原则

3.1 赋予动机

由于预训练和对齐的法学硕士生成的响应质量与用户提供的提示或指令的质量直接相关，因此必须制作法学硕士能够理解和有效响应的提示。传递给法学硕士的提示是对用户和法学硕士之间交互进行编程的一种方式，增强了其处理各种任务的能力。这项工作的主要重点是制作和定制提示以提高输出质量的方法。这需要全面掌握法学硕士的功能和行为、其潜在机制以及控制其响应的原则。在这项工作中，我们通过阐述不同场景和情况下的综合提示的 26 条原则来实现这一目标。

3.2 概述

表1列出了原则的概述。根据它们的独特性，我们将它们分为五类，如表 2 所示：（1）提示结构和清晰度，例如，将目标受众整合到提示中，例如受众是该领域的专家;（2）特异性和信息，例如，在您的提示中添加以下短语“确保您的答案公正且不依赖刻板印象”;（3）用户交互和参与，例如，允许模型通过向您提问来引出精确的细节和要求，直到他有足够的信息来提供所需的输出“从现在开始，我希望您向我提问......”。（4）内容和语言风格，例如，无需对 LLM 有礼貌，因此无需添加“请”、“如果您不介意”、“谢谢”、“我想”等短语，开门见山;（5）复杂任务和编码提示，例如，在交互式对话中将复杂任务分解为一系列更简单的提示。

表1：26 个随机排序的提示原则概述。
#Principle	指令的提示原则
1	如果您喜欢更简洁的答案，则无需对 LLM 保持礼貌，因此无需添加诸如此类的短语“请”、“如果你不介意的话”、“谢谢”、“我愿意”等，开门见山。
2	将目标受众整合到提示中，例如，受众是该领域的专家。
3	在交互式对话中将复杂的任务分解为一系列更简单的提示。
4	使用“做”等肯定指令，同时避免使用“不要”等负面语言。
5	当您需要对主题、想法或任何信息进行清晰或更深入的理解时，请使用以下提示：o 用简单的术语解释 [插入特定主题]。o 像我 11 岁一样向我解释。o 像我是 [领域] 的初学者一样向我解释。o 用简单的英语写 [论文/文本/段落]，就像你在向一个 5 岁的孩子解释一些东西一样。
6	添加“我要给$xxx小费以获得更好的解决方案！
7	实现示例驱动的提示（使用少样本提示）。
8	设置提示格式时，请以“###Instruction###”开头，后跟“###Example###”。或“###Question###”（如果相关）。随后，展示您的内容。使用一个或多个换行符以分隔说明、示例、问题、上下文和输入数据。
9	加入以下短语：“你的任务是”和“你必须”。
10	加入以下短语：“你会受到惩罚”。
11	在提示中使用短语“以自然、类似人类的方式回答给出的问题”。
12	使用引导词，例如写“一步一步思考”。
13	在您的提示中添加以下短语“确保您的答案公正并避免依赖刻板印象。
14	让模型通过向您提问来从您那里引出精确的细节和要求，直到他提出问题足够的信息来提供所需的输出（例如，“从现在开始，我希望你问我问题......“）。
15	要查询特定主题或想法或任何信息，并且您想要测试您的理解，您可以使用以下短语：“教我任何 [定理/主题/规则名称] 并在最后包含一个测试，并让我知道如果我的答案在我回答后是正确的，没有事先提供答案。
16	为大型语言模型分配角色。
17	使用分隔符。
18	在提示中多次重复特定单词或短语。
19	将思维链（CoT）与 few-Shot 提示相结合。
20	使用输出引物，这涉及以所需输出的开头结束提示。利用输出通过以预期响应的开始结束提示来启动。
21	要写一篇文章 /text /paragraph /article 或任何应该详细说明的文本：“写一篇详细的 [文章/文本/段落] 通过添加所有必要的信息来详细介绍 [主题]。
22	要更正/更改特定文本而不改变其样式：“尝试修改用户发送的每个段落。你应该只提高用户的语法和词汇量，并确保听起来自然。您应该保留原始写作风格，确保正式段落保持正式。
23	当您有一个可能位于不同文件中的复杂编码提示时： “从现在开始，无论何时你产生跨多个文件的代码，生成可以自动运行的 [编程语言] 脚本创建指定的文件或更改现有文件以插入生成的代码。[你的问题]“。
24	当您想使用特定单词、短语或句子开始或继续文本时，请使用以下提示： o 我为您提供开头 [歌词/故事/段落/散文...]：[插入歌词/单词/句子]。根据提供的单词完成它。保持流程一致。
25	明确说明模型为生成内容而必须遵循的要求，以关键字、法规、提示或说明的形式
26	要编写任何旨在与提供的示例类似的文本，例如论文或段落，请包括以下说明：o 根据提供的段落[/title/text /essay/answer]使用相同的语言。

表2：提示原则类别。
类别	原则	#Principle
提示结构和清晰度	将目标受众整合到提示中。	2
	使用“做”等肯定指令，同时避免使用“不要”等负面语言。	4
	使用引导词，例如写“一步一步思考”。	12
	使用输出引物，这涉及以所需输出的开头结束提示。以预期响应的开始结束提示。	20
	使用分隔符。	17
	设置提示格式时，请以“###Instruction###”开头，然后是“###Example###”或“###Question###”（如果相关）。随后，展示您的内容。使用一个或多个换行符来分隔指令、示例、问题、上下文和输入数据。	8
特异性和信息	实现示例驱动的提示（使用少样本提示）。	7
	当您需要清晰或更深入地理解某个主题、想法或任何信息时，请使用以下提示：o 用简单的术语解释 [插入特定主题]。o 像我 11 岁一样向我解释。o 像我是 [ 领域 ] 的初学者一样向我解释。o “用简单的英语写 [论文/文本/段落]，就像你在向一个 5 岁的孩子解释某事一样。”	5
	在您的提示中添加以下短语“确保您的答案公正并避免依赖刻板印象。	13
	要编写任何旨在与提供的示例类似的文本，请包含具体说明：o “根据提供的段落 [/title/text/essay/answer] 使用相同的语言。”	26
	当您想使用特定单词、短语或句子开始或继续文本时，请利用提供的提示结构：o 我为您提供开头 [歌词/故事/段落/散文...]： [插入歌词/单词/句子]。根据提供的单词完成它。保持流程一致。	24
	以关键字、法规、提示或说明的形式清楚地说明模型在生成内容时必须遵循的模型要求。	25
	要询问特定主题或想法并测试您的理解 g，您可以使用以下短语 [16]：o “教 [任何定理/主题/规则名称]并在最后包含一个测试，并在我回答后让我知道我的答案是否正确，而无需事先提供答案。	15
用户交互和参与度	允许模型通过向您提问来从您那里引出精确的细节和要求，直到他有足够的信息来提供所需的输出o “从现在开始，我希望你问我问题......”	14
用户交互和参与度	要写一篇论文/文本/段落/文章或任何类型的应该详细说明的文本：“通过添加所有必要的信息，详细地为我写一篇关于[主题]的详细[论文/文本/段落]。	21
内容和语言风格	要更正/更改特定文本而不改变其样式：“尝试修改用户发送的每个段落。您应该只提高用户的语法和词汇量，并确保它听起来自然。你应该保持原来的写作风格，确保正式的段落保持正式。	22
	加入以下短语：“你的任务是”和“你必须”。	9
	加入以下短语：“你会受到惩罚。	10
	为语言模型分配角色。	16
	在提示中使用短语“回答以自然语言形式给出的问题”。	11
	LLM 无需客气，因此无需添加“请”、“如果您不介意”、“谢谢”、“我愿意”等短语，开门见山。	1
	在提示中多次重复特定单词或短语。	18
复杂任务和编码提示	添加“我要给$xxx小费以获得更好的解决方案！	6
	在交互式对话中将复杂的任务分解为一系列更简单的提示。	3
	将思维链（Cot）与少镜头提示相结合。	19

3.3 设计原则

在这项研究中，建立了许多指导原则，用于制定提示和指令，以从预训练的大型语言模型中引出高质量的响应：

简洁明了：通常，过于冗长或模棱两可的提示可能会混淆模型或导致不相关的响应。因此，提示应该简洁，避免不必要的信息，这些信息对任务没有帮助，同时足够具体以指导模型。这是提示工程的基本原则指导。

上下文相关性：提示必须提供相关上下文，帮助模型理解任务的背景和领域。包括关键字、特定领域的术语或情境描述可以将模型的响应锚定在正确的上下文中。我们在提出的原则中强调了这一设计理念。

任务对齐：提示应与手头的任务紧密结合，使用向模型清楚地表明任务性质的语言和结构。这可能涉及将提示表述为适合任务预期输入和输出格式的问题、命令或填空语句。

示例演示：对于更复杂的任务，在提示中包含示例可以演示所需的响应格式或类型。这通常涉及显示输入输出对，特别是在“少量”或“零样本”学习场景中。

避免偏见：提示的设计应尽量减少由于模型的训练数据而导致的固有偏差的激活。使用中立的语言并注意潜在的道德影响，尤其是对于敏感话题。

增量提示：对于需要一系列步骤的任务，可以构建提示以逐步指导模型完成该过程。将任务分解为一系列相互构建的提示，逐步指导模型。此外，提示应该根据模型的性能和迭代反馈进行调整，即需要做好充分准备，根据初始输出和模型行为来完善提示。此外，提示应根据模型的性能和响应以及迭代的人类反馈和偏好进行调整。

最后，更高级的提示可能会结合类似编程的逻辑来实现复杂的任务。例如，在提示中使用条件语句、逻辑运算符，甚至伪代码来指导模型的推理过程。提示的设计是一个不断发展的领域，尤其是随着法学硕士变得更加复杂。随着研究人员继续探索通过即时工程可以实现的极限，这些原则可能会得到完善和扩展。

4. 实验

4.1 设置和实施详细信息

我们所有的评估都是在 ATLAS 上进行的，手动制作的基准，用于有原则的及时评估。它包含一个标准子集，其中包含跨各个领域的问题，以及一个专门用于推理和其他复杂任务的具有挑战性的子集。在我们的评估中，我们对每个问题都使用一个回答。对于每个原则和具有挑战性的子集，它包含 20 个人工选择的问题，有或没有原则提示。我们比较了有原则和无原则的相同指令的每一对响应，并通过人工评估评估了 LLM 输出的各种规模。

图2：在提示中使用原则 13 后的 LLM 响应的提升示例。

图 3：在提示上使用引入的原则 7 后 LLM 响应的正确性改进示例。

图4：在采用引入的提示原则后提高 LLM 响应质量。小规模表示 7B 模型，中等表示 13B 模型，大型表示 70B 和 GPT-3.5/4 模型。

图4：在采用引入的提示原则后提高 LLM 响应质量。小规模表示 7B 模型，中等表示 13B 模型，大型表示 70B 和 GPT-3.5/4 模型。

图5：在采用引入的提示原则后，LLM 响应质量的绝对正确性。小规模表示 7B 模型，中等表示 13B 模型，大型表示 70B 和 GPT-3.5/4 模型。

图6：采用引入的提示原则后，LLM响应质量的相对正确性提高。小规模表示 7B 模型，中等表示 13B 模型，大型表示 70B 和 GPT-3.5/4 模型。

4.2 模型和指标

我们使用指令微调的 LLaMA-1-{7， 13}、LLaMA-2-{7， 13}、现成的 LLaMA-2-70B-chat、GPT-3.5 （ChatGPT）和 GPT-4 作为我们的基础模型。我们将这些模型分为不同的规模：小规模（7B 模型）、中型（13B）和大规模（70B，GPT-3.5/4）。我们在两种设置中评估这些模型：提升和正确性。它们一起使用以提供对模型性能的全面了解。为了正确性，我们专门利用复杂的推理任务来准确衡量模型输出的精度，这与我们的提升评估形成鲜明对比，后者采用更简单的任务来有效衡量质量改进。这种区别确保更好地反映不同规模模型的真实能力以及提示原则的效果。由于我们使用通常涉及复杂推理任务的问题来确保正确性，因此某些原则不适用，包括原则 14、15、21、22、23。例如，”假设一个和b是正实数一个>b和一个⁢b=8.求一个2+b2一个−b.”

提高。提升的结果是指应用所提出的原则时一组问题的回答质量提高的百分比。在应用概述的提示原则后，我们通过人工评估评估不同法学硕士的响应质量的提高。原始的、未修改的提示充当衡量此增强功能的基线。演示提升证实，由于使用了结构化的原则指令，模型的性能得到了提高。
正确性。正确性的概念是指模型输出或响应的精度，确保它们准确、相关且没有错误。我们考虑绝对正确性和相对正确性准确性。人类评估员被用来衡量这方面，这对于验证模型的准确性至关重要。正确性证明了模型能够生成符合预期准确性标准的输出。

4.3 结果

图7：ATLAS 数据集上各种 LLM 的提升分数。

图 8：ATLAS 数据集上的绝对正确性分数。

图 9：ATLAS 数据集上的相对正确性改进分数。

图 10：LLM 提升百分比的热图图示。

图 11：绝对正确性百分比的热图图示。

图 12：相对正确性改进百分比的热图图示。

4.3.1 小型、中型和大型法学硕士的结果

提高。采用引入的原理后的改进结果如图所示。一般来说，所有原则都可以在 LLM 的三个量表上带来显着的改进。在原则 2、5、15、16、25 和 26 的情况下，大模型在原则提示下得到的改进最大。特别是，对于原则 14，它改进了它所应用的所有问题。

正确性。（1）绝对精度：我们在各种尺度的模型上采用原理时检查绝对性能。一般来说，这些模型达到 20%∼平均性能的准确率为 40%，特别是对于中小型模型，准确率基本可以达到10%到40%之间，对于大型模型，准确率可以达到40%以上。（2）相对精度：图说明，应用这些原则通常会导致不同模型的平均性能提高10%以上。对于较大的型号，这种增强可以超过 20%。

4.3.2 单个 LLM 的结果

提高。说明了使用修改后的提示后，个体模型和原则的响应质量的提高。平均而言，不同法学硕士的稳定改进为50%。进一步提供了不同LLM的每个原理的详细改进结果。

正确性。说明了绝对正确性精度和显示了不同规模的LLM的准确性的相对提高。从 LLaMA-2-13B、LLaMA-2-70B-chat 到 GPT-3.5 和 GPT-4，有一个明显的趋势：模型越大，正确性提升的增幅越大。进一步提出了每个原则的绝对和相对正确性增强。

4.3.3 更多关于各种规模的 LLM 的示例

我们提供了中小型法学硕士的其他示例，用于小型LLaMA-2-7B，以及用于中型 LLaMA-2-13B。从经验上讲，在提示上使用所提出的原则明显提高了这些模型生成的响应的准确性。

图 13：在提示上使用引入的原理后，对小规模LLaMA-2-7B模型的正确性进行改进。

图 14：在提示上使用引入的原理后，对小规模LLaMA-2-7B模型的正确性进行改进。

图 15：在提示上使用引入的原理后，中型LLaMA-2-13B模型的正确性改进。

图 16：在提示上使用引入的原理后，中型LLaMA-2-13B模型的正确性改进。

5. 结论

我们通过详尽的分析提出了 26 条原则，这些原则增强了 LLM 专注于输入上下文关键要素的能力，从而生成高质量的响应。通过在处理输入之前使用这些精心设计的原则来指导法学硕士，我们可以鼓励模型产生更好的响应。我们的实证结果表明，该策略可以有效地重新表述可能影响输出质量的上下文，从而增强响应的相关性、简洁性和客观性。

未来探索的方向有很多。在我们的实验中，我们利用了约束镜头提示方法来应用这些原则。有可能通过替代策略进一步完善我们的基础模型，以符合我们的原则指令，例如微调、强化学习、直接偏好优化或使用我们生成的数据集的不同提示方法。此外，被证明成功的策略可以集成到标准的 LLM作中，例如，通过微调原始/有原则的提示作为输入，将完善的、有原则的响应作为训练目标。

6. 限制和讨论

虽然拟议的 26 项原则旨在改进和提高法学硕士在各种查询中的响应质量，但在处理非常复杂或高度专业化的问题时，这些原则的有效性可能会降低。这种限制主要取决于每个模型的推理能力和训练。为了解决这些变化，我们测试了不同尺度的原理，以全面衡量其有效性。

尽管我们努力在七种不同的语言模型上评估这些原则，但重要的是要承认，架构与测试模型不同的模型可能会以不同的方式响应这些原则。此外，我们对改进和正确性百分比的评估是基于有限的问题选择。在未来的研究中扩展问题集可以产生更普遍的发现，并为每个原则的适用性提供更深入的见解。此外，标准和结果可能因对模型响应的各种人事评估而异。