FasterWhisperParser#
- class langchain_community.document_loaders.parsers.audio.FasterWhisperParser(*, device: str | None = 'cuda', model_size: str | None = None)[source]#
使用faster-whisper转录和解析音频文件。
faster-whisper 是使用 CTranslate2 重新实现的 OpenAI 的 Whisper 模型,在相同精度下比 openai/whisper 快 4 倍,同时使用更少的内存。通过在 CPU 和 GPU 上进行 8 位量化,可以进一步提高效率。
它可以自动检测以下14种语言并将文本转录为各自的语言:en, zh, fr, de, ja, ko, ru, es, th, it, pt, vi, ar, tr。
faster-whisper 的 GitHub 仓库是: SYSTRAN/faster-whisper
- Example: Load a YouTube video and transcribe the video speech into a document.
from langchain.document_loaders.generic import GenericLoader from langchain_community.document_loaders.parsers.audio import FasterWhisperParser from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader url="https://www.youtube.com/watch?v=your_video" save_dir="your_dir/" loader = GenericLoader( YoutubeAudioLoader([url],save_dir), FasterWhisperParser() ) docs = loader.load()
初始化解析器。
- Parameters:
device (str | None) – 它可以是“cuda”或“cpu”,取决于可用的设备。
model_size (str | None) – 有四种模型大小可供选择:“base”、“small”、“medium”和“large-v3”,根据可用的GPU内存来选择。
方法
__init__
(*[, device, model_size])初始化解析器。
lazy_parse
(blob)懒解析 blob。
parse
(blob)急切地将blob解析为一个或多个文档。
- __init__(*, device: str | None = 'cuda', model_size: str | None = None)[source]#
初始化解析器。
- Parameters:
device (str | None) – 它可以是“cuda”或“cpu”,取决于可用的设备。
model_size (str | None) – 有四种模型大小可供选择:“base”、“small”、“medium”和“large-v3”,根据可用的GPU内存来选择。