GPT-4o简介
GPT-4o(“o”代表“omni”)旨在处理文本、音频和视频输入的组合,并能生成文本、音频和图像格式的输出。
背景
在GPT-4o之前,用户可以使用语音模式与ChatGPT进行交互,该模式使用三个单独的模型。GPT-4o将把这些功能集成到一个单一模型中,该模型在文本、视觉和音频方面进行训练。这种统一的方法确保所有输入(无论是文本、视觉还是听觉)都由同一个神经网络 协同处理。
当前API功能
目前,API仅支持{text, image}
输入,输出为{text}
,与gpt-4-turbo
相同的模态。很快将引入其他模态,包括音频。本指南将帮助您开始使用GPT-4o来理解文本、图像和视频。
开始使用
安装用于Python的OpenAI SDK
%pip install --upgrade openai --quiet
配置OpenAI客户端并提交测试请求
为了为我们的使用设置客户端,我们需要创建一个API密钥来用于我们的请求。如果您已经有了用于使用的API密钥,请跳过这些步骤。
您可以按照以下步骤获取API密钥: 1. 创建一个新项目 2. 在您的项目中生成一个API密钥 3. (推荐,但不是必需的)将您的API密钥设置为环境变量,适用于所有项目
一旦我们完成了这些设置,让我们从一个简单的{text}
输入开始,用于我们的第一个请求。我们将为我们的第一个请求 使用system
和user
消息,并将从assistant
角色接收到一个响应。
from openai import OpenAI
import os
# #设置API密钥和模型名称
MODEL="gpt-4o"
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", "<your OpenAI API key if not set as an env var>"))
completion = client.chat.completions.create(
model=MODEL,
messages=[
{"role": "system", "content": "You are a helpful assistant. Help me with my math homework!"}, # <-- 这是为模型提供上下文的系统消息
{"role": "user", "content": "Hello! Could you solve 2+2?"} # <-- 这是用户消息,模型将据此生成回复。
]
)
print("Assistant: " + completion.choices[0].message.content)
Assistant: Of course!
\[ 2 + 2 = 4 \]
If you have any other questions, feel free to ask!