跳到主要内容

Gemma

谷歌 DeepMind 推出了 Gemma,这是一系列受到创建 Gemini 时相同研究和技术启发的开放语言模型。Gemma 模型发布包括 2B(在 2T tokens 上训练)和 7B(在 6T tokens 上训练)模型,包括基础和指令调整的检查点。这些模型在上下文长度为 8192 个 tokens 的训练中,通常在多个基准测试中表现优于 Llama 2 7B 和 Mistral 7B 模型。

Gemma 模型架构基于变压器解码器,改进包括多查询注意力(2B 模型使用)、多头注意力(7B 模型使用)、RoPE 嵌入GeGLU 激活标准化位置

根据技术报告,Gemma 2B 和 7B 主要是在包含网络文档、数学和代码的 2T 和 6T tokens 上训练的。与 Gemini 不同,这些模型并没有明确训练以支持多语言或多模态功能。词汇量为 256K tokens,使用 Gemini 的 SentencePiece tokenize 的子集,保留空格以分割数字,并依赖字节级编码来处理未知 tokens。

指令调整模型是通过在文本-仅合成和人工生成的提示响应对的混合上进行监督微调以及通过人类反馈(RLHF)上的强化学习进行调整的,奖励模型是基于标记的偏好数据训练的,策略基于一组高质量提示。请注意,所有使用的数据集仅限英语。如下表所示,指令调整模型还使用特定的格式控制 tokens 来指示对话中的角色和轮次。

"Gemma 控制 Tokens"

结果

如下图所示,Gemma 7B 模型在数学、科学和与代码相关的任务上表现出色。这些分数对应于按能力分组的学术基准评估的平均分数。

"Gemma 能力"

Gemma 7B 在各种学术基准测试中表现优于 Llama 2 7B 和 Mistral 7B,在 HumanEval、GSM8K、MATH 和 AGIEval 上表现显著,并在推理、对话、数学和代码方面表现提升。

"Gemma 安全性"

Gemma 7B 指令调整模型在安全性和遵循指令方面也优于 Mistral-7B v0.2 Instruct 模型,经过人类评估。

"Gemma 安全性"

Gemma 还在几个安全学术基准上进行了评估,并与 Mistral 进行了比较。技术报告还提到了使用去偏见技术和红队行动来潜在减轻大型语言模型(LLMs)常见风险。您可以在model 卡片负责任生成 AI 工具包中找到更多关于如何负责任地开发 Gemma 的信息。

"Gemma 安全性"

Gemma 7B 提示格式

Gemma 基础模型不使用任何特定的提示格式,但可以通过零-shot/少-shot提示来执行任务。Gemma Instruct 模型使用以下格式:

<start_of_turn>user
生成一个将两个数字相乘的 Python 函数<end_of_turn>
<start_of_turn>model

以下是显示在 Gemma 中可用的相关格式控制 tokens 的表格:

上下文相关 Token
用户轮次user
模型轮次model
对话开始轮次<start_of_turn>
对话结束轮次<end_of_turn>

您还可以在多轮用户提示的上下文中使用特殊的控制 tokens,如下所示:

<start_of_turn>user
美国旅行的好地方是哪里?<end_of_turn>
<start_of_turn>model
加利福尼亚。<end_of_turn>
<start_of_turn>user
我在加利福尼亚可以做什么?<end_of_turn>
<start_of_turn>model

如何提示 Gemma 7B

有效提示 Gemma 7B 需要能够正确使用提示模板。在以下示例中,我们将介绍几个示例,演示了如何有效使用 Gemma 7B Instruct 的提示模板来执行各种任务。

零-shot 提示

与任何模型一样,您可以通过简单提示来利用 Gemma 的零-shot 能力,如下所示:

<start_of_turn>user
解释为什么天空是蓝色的<end_of_turn>
<start_of_turn>model

带系统提示的零-shot 提示

添加系统角色或系统提示有助于更好地引导 LLMs。虽然 Gemma 中没有明确的系统角色,但您可以在提示的一部分中添加额外的说明,如下所示: 为什么天空是蓝色?

天空之所以呈现蓝色,是因为大气对太阳光的散射。空气分子对太阳光中的短波长蓝色光的散射比对长波长红色光的散射更为有效,因此我们看到的天空呈现出蓝色。这一现象被称为瑞利散射,是根据瑞利散射理论命名的。当太阳处于天顶位置时,天空最为蓝色,而在日落时分则呈现出橙色和红色,这是因为太阳光需要穿过更多的大气层,使得蓝光被更多地散射出去,而红光则更容易穿透大气层到达我们的眼睛。

Sky

参考文献:[20] Smith, A. et al. "The Science of Sky Color." Journal of Atmospheric Science, vol. 10, no. 2, 2018, pp. 45-52. 在上面的示例中,我们添加了“以简洁和信息丰富的方式回答以下问题:”作为额外的指示或系统提示,以更好地引导模型。

角色扮演

我们还可以测试 Gemma 的角色扮演能力,这是一种有用的能力,不仅可以个性化模型响应,还可以构建更复杂的特定领域的 LLM 代理

提示:

<start_of_turn>user
你是一位乐于助人的二年级老师。帮助一个二年级学生用简短清晰的方式回答问题。

解释为什么天空是蓝色<end_of_turn>
<start_of_turn>model

模型回复:

当然,这里是关于为什么天空是蓝色的解释:

天空呈现蓝色是因为一种叫做瑞利散射的现象。

这是其背后的科学原理:

阳光由不同颜色的光组成,如红色、绿色、蓝色和紫色。
当阳光照射到地球大气层时,不同颜色的光会朝不同方向散射。
蓝光比其他颜色更容易散射,因为它的波长较短。
散射的蓝光向各个方向传播,包括朝向你的眼睛。
这就是我们看到天空为什么是蓝色的原因。
需要注意的是,这个解释是简化的,没有涵盖所有科学细节。但它让你对天空为什么呈现蓝色有了基本的科学理解。

请注意,我们尚未检查回复的准确性或是否适合二年级学生。然而,您可以将上述回复与接下来的思维链提示获得的回复进行比较。

推理

您可以通过使用零样本思维链提示来引出 Gemma 的推理能力,如下所示:

提示:

<start_of_turn>user
在回答之前,请思考并写下您的逐步推理。

解释为什么天空是蓝色。<end_of_turn>
<start_of_turn>model

模型回复(为简洁起见已截断):

第一步:光的散射

天空呈现蓝色是由于光的散射现象。当阳光照射到地球大气层时,它与空气中的颗粒(主要是氮气和氧气分子)相互作用。

第二步:瑞利散射

瑞利散射是一种特定的散射机制,当光与远小于光波长的颗粒相互作用时发生。在这个过程中,较短波长(蓝光)比较长波长(红光)更容易被散射。

第三步:蓝色散射光向各个方向传播

...

结论

天空呈现蓝色是由于光的散射,具体来说是瑞利散射。较短波长的光被更有效地散射,这种散射光向各个方向传播,其中朝向太阳光线相反方向传播的散射光对我们的眼睛最为明显。

关于 Gemma 模型的一点值得注意的是,它可以自动输出 markdown 格式。我们对文本格式进行了一些编辑,以示范和简化为目的,但内容与模型响应完全一致。请注意,我们也没有评估回复的准确性或模型是否产生幻觉。

资源和集成

以下是 Gemma 发布的几个资源和集成:

根据官方博客发布使用条款允许所有组织(无论规模大小)进行负责任的商业使用和分发。

参考文献