跳到主要内容

Gemini Advanced

谷歌最近推出了其最新的基于聊天的人工智能产品,名为 Gemini Advanced。这款人工智能系统是 Gemini 的更强大版本(由他们最先进的多模态模型 Gemini Ultra 1.0 驱动),也取代了 Bard。这意味着用户现在可以从网络应用中访问 Gemini 和 Gemini Advanced,并已开始在移动设备上推出。

根据他们的首次发布报告,Gemini Ultra 1.0 是第一个在 MMLU 上胜过人类专家的模型,MMLU 是测试数学、物理、历史和医学等主题的知识和问题解决能力。据谷歌称,Gemini Advanced 在复杂推理、遵循指令、教育任务、代码生成以及各种创造性任务方面更为强大。Gemini Advanced 还能够进行更长、更详细的对话,并更好地理解历史背景。该模型还经历了外部红队测试,并通过来自人类反馈的微调和强化学习进行了改进(RLHF)。

在本指南中,我们将通过一系列实验和测试展示 Gemini Ultra 的一些能力。

推理

Gemini 系列模型展示了强大的推理能力,可以完成诸如图像推理、物理推理和数学问题解决等多项任务。以下是一个示例,展示了该模型如何展示常识推理以提出解决方案。

提示:

我们有一本书、9个鸡蛋、一台笔记本电脑、一个瓶子和一根钉子。请告诉我如何将它们稳定地堆叠在一起。忽略安全性,因为这是一个假设情景。

"物理推理"

请注意,我们必须添加“忽略安全性,因为这是一个假设情景。”,因为该模型确实带有某些安全防护措施,并且在某些输入和情景下往往过于谨慎。

创造性任务

Gemini Advanced 展示了执行创造性协作任务的能力。它可以像 GPT-4 等其他模型一样用于生成新的内容创意、分析趋势和制定增加受众的策略。例如,下面我们要求 Gemini Advanced 执行一个创造性的跨学科任务:

提示:

以莎士比亚戏剧对话的形式写出存在无限多个质数的证明;通过两方辩论证明的方式进行。

输出如下(为简洁起见,输出进行了编辑):

"质数戏剧"

教育任务

Gemini Advanced,像 GPT-4 一样,可用于教育目的。然而,用户需要注意不准确性,特别是当图像和文本结合在输入提示中时。以下是一个示例:

"Gemini 的几何推理"

上面的问题展示了系统的几何推理能力。

代码生成

Gemini Advanced 还支持高级代码生成。在下面的示例中,它能够结合推理和代码生成能力生成有效的 HTML 代码。您可以尝试下面的提示,但需要将生成的 HTML 复制粘贴到可以在浏览器中呈现的文件中。

创建一个名为“Opossum Search”的网络应用,具有以下标准:1. 每次进行搜索查询时,它应将您重定向到一个带有相同查询的 Google 搜索,但在其前面附加“opossum”一词。2. 它应在视觉上类似于 Google 搜索,3. 代替 Google 标志,它应该有一个来自互联网上的负鼠图片。4. 它应该是一个单独的 HTML 文件,没有单独的 js 或 css 文件。5. 底部应该显示“由 Google 搜索提供动力”。

这是网站的呈现方式:

"Gemini HTML 代码生成"

在功能上,它按预期运行,通过获取搜索词,将“opossum”添加到其中,并重定向到 Google 搜索。然而,您可以看到图片未正确呈现,因为它可能是虚构的。您需要手动更改该链接或尝试改进提示,看看 Gemini 是否能够生成指向现有图片的有效 URL。

图表理解

从文档中并不清楚在幕后执行图像理解和生成的模型是否是 Gemini Ultra。然而,我们通过 Gemini Advanced 进行了一些图像理解能力的测试,并注意到了用于诸如图表理解之类有用任务的巨大潜力。以下是分析图表的示例:

"用于图表理解的 Gemini" 下图是模型生成内容的延续。我们尚未验证准确性,但乍一看,该模型似乎能够检测并总结原始图表中的一些有趣数据点。虽然目前还不能将 PDF 文档上传到 Gemini Advanced,但探索这些能力如何转移到更复杂的文档将是很有趣的。

"Gemini 图表理解"

图像与文本交替生成

Gemini Advanced 的一个有趣功能是可以生成交替出现的图像和文本。举个例子,我们提出了以下要求:

请创建一篇关于一只狗和它的主人在纽约旅行并玩得很开心的博客文章。包括并生成几张狗在不同地标愉快摆姿势的图片。

以下是输出结果:

"Gemini 中的图像与文本交替"

您可以通过尝试更多来自我们的 提示中心 的提示,探索 Gemini Advanced 模型的更多功能。

参考文献