使用GPT-4o的视觉能力和TTS API处理和叙述视频
这个笔记本演示了如何使用GPT的视觉能力处理视频。GPT-4o不能直接接受视频作为输入,但我们可以利用视觉和128K上下文窗口来一次性描述整个视频的静态帧。我们将演示两个示例:
- 使用GPT-4o获取视频的描述
- 使用GPT-o和TTS API为视频生成配音
from IPython.display import display, Image, Audio
import cv2 # 我们正在使用OpenCV来读取视频,要安装的话,请运行:`!pip install opencv-python`
import base64
import time
from openai import OpenAI
import os
import requests
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", "<your OpenAI API key if not set as env var>"))