FasterWhisperParser#

class langchain_community.document_loaders.parsers.audio.FasterWhisperParser(*, device: str | None = 'cuda', model_size: str | None = None)[source]#

使用faster-whisper转录和解析音频文件。

faster-whisper 是使用 CTranslate2 重新实现的 OpenAI 的 Whisper 模型,在相同精度下比 openai/whisper 快 4 倍,同时使用更少的内存。通过在 CPU 和 GPU 上进行 8 位量化,可以进一步提高效率。

它可以自动检测以下14种语言并将文本转录为各自的语言:en, zh, fr, de, ja, ko, ru, es, th, it, pt, vi, ar, tr。

faster-whisper 的 GitHub 仓库是: SYSTRAN/faster-whisper

Example: Load a YouTube video and transcribe the video speech into a document.
from langchain.document_loaders.generic import GenericLoader
from langchain_community.document_loaders.parsers.audio
    import FasterWhisperParser
from langchain.document_loaders.blob_loaders.youtube_audio
    import YoutubeAudioLoader


url="https://www.youtube.com/watch?v=your_video"
save_dir="your_dir/"
loader = GenericLoader(
    YoutubeAudioLoader([url],save_dir),
    FasterWhisperParser()
)
docs = loader.load()

初始化解析器。

Parameters:
  • device (str | None) – 它可以是“cuda”或“cpu”,取决于可用的设备。

  • model_size (str | None) – 有四种模型大小可供选择:“base”、“small”、“medium”和“large-v3”,根据可用的GPU内存来选择。

方法

__init__(*[, device, model_size])

初始化解析器。

lazy_parse(blob)

懒解析 blob。

parse(blob)

急切地将blob解析为一个或多个文档。

__init__(*, device: str | None = 'cuda', model_size: str | None = None)[source]#

初始化解析器。

Parameters:
  • device (str | None) – 它可以是“cuda”或“cpu”,取决于可用的设备。

  • model_size (str | None) – 有四种模型大小可供选择:“base”、“small”、“medium”和“large-v3”,根据可用的GPU内存来选择。

lazy_parse(blob: Blob) Iterator[Document][source]#

懒解析blob。

Parameters:

blob (Blob)

Return type:

迭代器[文档]

parse(blob: Blob) list[Document]#

急切地将blob解析为一个或多个文档。

这是一个用于交互式开发环境的便捷方法。

生产应用程序应优先使用lazy_parse方法。

子类通常不应重写此解析方法。

Parameters:

blob (Blob) – Blob 实例

Returns:

文档列表

Return type:

列表[Document]