document_loaders#

文档加载器 是用于加载文档的类。

文档加载器通常用于一次性加载大量文档。

类层次结构:

BaseLoader --> <name>Loader  # Examples: TextLoader, UnstructuredFileLoader

主要助手:

Document, <name>TextSplitter

document_loaders.acreom.AcreomLoader(path[, ...])

从目录加载acreom保险库。

document_loaders.airbyte.AirbyteCDKLoader(...)

使用CDK实现的Airbyte源连接器加载。

document_loaders.airbyte.AirbyteGongLoader(...)

使用 Airbyte 源连接器从 Gong 加载。

document_loaders.airbyte.AirbyteHubspotLoader(...)

使用Airbyte源连接器从Hubspot加载。

document_loaders.airbyte.AirbyteSalesforceLoader(...)

使用Airbyte源连接器从Salesforce加载。

document_loaders.airbyte.AirbyteShopifyLoader(...)

使用Airbyte源连接器从Shopify加载。

document_loaders.airbyte.AirbyteStripeLoader(...)

使用Airbyte源连接器从Stripe加载。

document_loaders.airbyte.AirbyteTypeformLoader(...)

使用 Airbyte 源连接器从 Typeform 加载。

document_loaders.airbyte.AirbyteZendeskSupportLoader(...)

使用Airbyte源连接器从Zendesk Support加载。

document_loaders.airbyte_json.AirbyteJSONLoader(...)

加载本地的Airbyte json文件。

document_loaders.airtable.AirtableLoader(...)

加载 Airtable 表格。

document_loaders.apify_dataset.ApifyDatasetLoader

Apify网络抓取、爬取和数据提取平台加载数据集。

document_loaders.arcgis_loader.ArcGISLoader(layer)

从ArcGIS FeatureLayer加载记录。

document_loaders.arxiv.ArxivLoader(query[, ...])

Arxiv加载查询结果。

document_loaders.assemblyai.AssemblyAIAudioLoaderById(...)

加载 AssemblyAI 音频转录。

document_loaders.assemblyai.AssemblyAIAudioTranscriptLoader(...)

加载 AssemblyAI 音频转录。

document_loaders.assemblyai.TranscriptFormat(value)

用于文档加载器的转录格式。

document_loaders.async_html.AsyncHtmlLoader(...)

异步加载 HTML

document_loaders.athena.AthenaLoader(query, ...)

AWS Athena加载文档。

document_loaders.azlyrics.AZLyricsLoader([...])

加载 AZLyrics 网页。

document_loaders.azure_ai_data.AzureAIDataLoader(url)

从Azure AI数据加载。

document_loaders.azure_blob_storage_container.AzureBlobStorageContainerLoader(...)

Azure Blob Storage容器加载。

document_loaders.azure_blob_storage_file.AzureBlobStorageFileLoader(...)

Azure Blob Storage文件加载。

document_loaders.baiducloud_bos_directory.BaiduBOSDirectoryLoader(...)

百度BOS目录加载。

document_loaders.baiducloud_bos_file.BaiduBOSFileLoader(...)

百度云 BOS文件加载。

document_loaders.base_o365.O365BaseLoader

所有使用O365包的加载器的基类

document_loaders.bibtex.BibtexLoader(...[, ...])

加载一个bibtex文件。

document_loaders.bilibili.BiliBiliLoader(...)

从BiliBili视频中加载获取字幕。

document_loaders.blackboard.BlackboardLoader(...)

加载一个Blackboard课程。

document_loaders.blob_loaders.cloud_blob_loader.CloudBlobLoader(url, *)

从云URL或文件加载blobs。

document_loaders.blob_loaders.file_system.FileSystemBlobLoader(path, *)

加载本地文件系统中的blobs。

document_loaders.blob_loaders.youtube_audio.YoutubeAudioLoader(...)

将YouTube网址加载为音频文件。

document_loaders.blockchain.BlockchainDocumentLoader(...)

从区块链智能合约加载元素。

document_loaders.blockchain.BlockchainType(value)

支持的区块链的枚举器。

document_loaders.brave_search.BraveSearchLoader(...)

使用Brave Search引擎加载。

document_loaders.browserbase.BrowserbaseLoader(urls)

使用托管在Browserbase上的无头浏览器加载预渲染的网页。

document_loaders.browserless.BrowserlessLoader(...)

使用Browserless的/content端点加载网页。

document_loaders.cassandra.CassandraLoader(...)

用于Apache Cassandra的文档加载器。

document_loaders.chatgpt.ChatGPTLoader(log_file)

从导出的ChatGPT数据中加载对话。

document_loaders.chm.CHMParser(path)

Microsoft 编译的 HTML 帮助 (CHM) 解析器。

document_loaders.chm.UnstructuredCHMLoader(...)

使用Unstructured加载CHM文件。

document_loaders.chromium.AsyncChromiumLoader(urls, *)

使用无头模式的Chromium实例从URL中抓取HTML页面。

document_loaders.college_confidential.CollegeConfidentialLoader([...])

加载 College Confidential 网页。

document_loaders.concurrent.ConcurrentLoader(...)

并发加载和解析文档。

document_loaders.confluence.ConfluenceLoader(url)

加载 Confluence 页面。

document_loaders.confluence.ContentFormat(value)

Confluence页面内容格式的枚举器。

document_loaders.conllu.CoNLLULoader(file_path)

加载 CoNLL-U 文件。

document_loaders.couchbase.CouchbaseLoader(...)

Couchbase加载文档。

document_loaders.csv_loader.CSVLoader(file_path)

CSV文件加载到文档列表中。

document_loaders.csv_loader.UnstructuredCSVLoader(...)

使用Unstructured加载CSV文件。

document_loaders.cube_semantic.CubeSemanticLoader(...)

加载 Cube 语义层 元数据。

document_loaders.datadog_logs.DatadogLogsLoader(...)

加载 Datadog 日志。

document_loaders.dataframe.BaseDataFrameLoader(...)

使用数据框对象进行初始化。

document_loaders.dataframe.DataFrameLoader(...)

加载 Pandas 数据框。

document_loaders.dedoc.DedocAPIFileLoader(...)

使用dedoc API加载文件。文件加载器会自动检测文件类型(即使扩展名错误)。默认情况下,加载器会调用本地托管的dedoc API。有关dedoc API的更多信息可以在dedoc文档中找到:https://dedoc.readthedocs.io/en/latest/dedoc_api_usage/api.html

document_loaders.dedoc.DedocBaseLoader(...)

使用 dedoc (https://dedoc.readthedocs.io) 的基础加载器。

document_loaders.dedoc.DedocFileLoader(...)

DedocFileLoader 文档加载器集成,用于使用 dedoc 加载文件。

document_loaders.diffbot.DiffbotLoader(...)

加载 Diffbot json 文件。

document_loaders.directory.DirectoryLoader(...)

从目录加载。

document_loaders.discord.DiscordChatLoader(...)

加载 Discord 聊天记录。

document_loaders.doc_intelligence.AzureAIDocumentIntelligenceLoader(...)

使用Azure文档智能加载PDF。

document_loaders.docusaurus.DocusaurusLoader(url)

从Docusaurus文档加载。

document_loaders.dropbox.DropboxLoader

Dropbox加载文件。

document_loaders.duckdb_loader.DuckDBLoader(query)

DuckDB 加载。

document_loaders.email.OutlookMessageLoader(...)

使用 extract_msg 加载 Outlook 邮件文件。

document_loaders.email.UnstructuredEmailLoader(...)

使用 Unstructured 加载电子邮件文件。

document_loaders.epub.UnstructuredEPubLoader(...)

使用Unstructured加载EPub文件。

document_loaders.etherscan.EtherscanLoader(...)

Ethereum主网加载交易。

document_loaders.evernote.EverNoteLoader(...)

EverNote加载。

document_loaders.excel.UnstructuredExcelLoader(...)

使用 Unstructured 加载 Microsoft Excel 文件。

document_loaders.facebook_chat.FacebookChatLoader(path)

加载Facebook Chat消息目录转储。

document_loaders.fauna.FaunaLoader(query, ...)

FaunaDB 加载。

document_loaders.figma.FigmaFileLoader(...)

加载 Figma 文件。

document_loaders.firecrawl.FireCrawlLoader(url, *)

FireCrawlLoader 文档加载器集成

document_loaders.generic.GenericLoader(...)

通用文档加载器。

document_loaders.geodataframe.GeoDataFrameLoader(...)

加载 geopandas 数据框。

document_loaders.git.GitLoader(repo_path[, ...])

加载 Git 仓库文件。

document_loaders.gitbook.GitbookLoader(web_page)

加载 GitBook 数据。

document_loaders.github.BaseGitHubLoader

加载 GitHub 仓库的问题。

document_loaders.github.GitHubIssuesLoader

加载 GitHub 仓库的问题。

document_loaders.github.GithubFileLoader

加载 GitHub 文件

document_loaders.glue_catalog.GlueCatalogLoader(...)

从AWS Glue加载表结构。

document_loaders.gutenberg.GutenbergLoader(...)

Gutenberg.org 加载。

document_loaders.helpers.FileEncoding(...)

文件编码作为NamedTuple。

document_loaders.hn.HNLoader([web_path, ...])

加载 Hacker News 数据。

document_loaders.html.UnstructuredHTMLLoader(...)

使用 Unstructured 加载 HTML 文件。

document_loaders.html_bs.BSHTMLLoader(file_path)

__ModuleName__ 文档加载器集成

document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path)

Hugging Face Hub数据集中加载。

document_loaders.hugging_face_model.HuggingFaceModelLoader(*)

Hugging Face Hub加载模型信息,包括README内容。

document_loaders.ifixit.IFixitLoader(web_path)

加载 iFixit 维修指南、设备维基和答案。

document_loaders.image.UnstructuredImageLoader(...)

使用 Unstructured 加载 PNGJPG 文件。

document_loaders.image_captions.ImageCaptionLoader(images)

加载图像字幕。

document_loaders.imsdb.IMSDbLoader([...])

加载 IMSDb 网页。

document_loaders.iugu.IuguLoader(resource[, ...])

IUGU 加载。

document_loaders.joplin.JoplinLoader([...])

Joplin加载笔记。

document_loaders.json_loader.JSONLoader(...)

使用 jq 模式加载 JSON 文件。

document_loaders.kinetica_loader.KineticaLoader(...)

Kinetica API 加载。

document_loaders.lakefs.LakeFSClient(...)

用于lakeFS的客户端。

document_loaders.lakefs.LakeFSLoader(...[, ...])

lakeFS 加载。

document_loaders.lakefs.UnstructuredLakeFSLoader(...)

lakeFS 加载为非结构化数据。

document_loaders.larksuite.LarkSuiteDocLoader(...)

LarkSuite (FeiShu) 加载。

document_loaders.larksuite.LarkSuiteWikiLoader(...)

LarkSuite (FeiShu) wiki 加载。

document_loaders.llmsherpa.LLMSherpaFileLoader(...)

使用LLMSherpa加载文档。

document_loaders.markdown.UnstructuredMarkdownLoader(...)

使用Unstructured加载Markdown文件。

document_loaders.mastodon.MastodonTootsLoader(...)

加载Mastodon的'toots'。

document_loaders.max_compute.MaxComputeLoader(...)

阿里云MaxCompute表加载。

document_loaders.mediawikidump.MWDumpLoader(...)

XML文件加载MediaWiki转储。

document_loaders.merge.MergedDataLoader(loaders)

从多个加载器中合并文档

document_loaders.mhtml.MHTMLLoader(file_path)

使用BeautifulSoup解析MHTML文件。

document_loaders.mintbase.MintbaseDocumentLoader(...)

从区块链智能合约加载元素。

document_loaders.modern_treasury.ModernTreasuryLoader(...)

Modern Treasury加载。

document_loaders.mongodb.MongodbLoader(...)

加载MongoDB文档。

document_loaders.needle.NeedleLoader([...])

NeedleLoader 是一个用于管理存储在集合中的文档的文档加载器。

document_loaders.news.NewsURLLoader(urls[, ...])

使用Unstructured从URL加载新闻文章。

document_loaders.notebook.NotebookLoader(path)

加载 Jupyter notebook (.ipynb) 文件。

document_loaders.notion.NotionDirectoryLoader(path, *)

加载 Notion 目录 转储。

document_loaders.notiondb.NotionDBLoader(...)

Notion DB加载。

document_loaders.nuclia.NucliaLoader(path, ...)

使用Nuclia Understanding API从任何文件类型加载。

document_loaders.obs_directory.OBSDirectoryLoader(...)

华为OBS目录加载。

document_loaders.obs_file.OBSFileLoader(...)

华为OBS文件加载。

document_loaders.obsidian.ObsidianLoader(path)

从目录加载Obsidian文件。

document_loaders.odt.UnstructuredODTLoader(...)

使用Unstructured加载OpenOffice ODT文件。

document_loaders.onedrive.OneDriveLoader

从 Microsoft OneDrive 加载文档。

document_loaders.onedrive_file.OneDriveFileLoader

Microsoft OneDrive加载文件。

document_loaders.onenote.OneNoteLoader

从OneNote笔记本加载页面。

document_loaders.open_city_data.OpenCityDataLoader(...)

Open City加载。

document_loaders.oracleadb_loader.OracleAutonomousDatabaseLoader(...)

从oracle adb加载

document_loaders.oracleai.OracleDocLoader(...)

使用OracleDocLoader读取文档 :param conn: Oracle连接, :param params: 加载器参数。

document_loaders.oracleai.OracleDocReader()

读取文件

document_loaders.oracleai.OracleTextSplitter(...)

使用Oracle分块器分割文本。

document_loaders.oracleai.ParseOracleDocMetadata()

解析 Oracle 文档元数据...

document_loaders.org_mode.UnstructuredOrgModeLoader(...)

使用Unstructured加载Org-Mode文件。

document_loaders.parsers.audio.AzureOpenAIWhisperParser(*)

使用Azure OpenAI Whisper转录和解析音频文件。

document_loaders.parsers.audio.FasterWhisperParser(*)

使用faster-whisper转录和解析音频文件。

document_loaders.parsers.audio.OpenAIWhisperParser([...])

转录和解析音频文件。

document_loaders.parsers.audio.OpenAIWhisperParserLocal([...])

使用OpenAI Whisper模型转录和解析音频文件。

document_loaders.parsers.audio.YandexSTTParser(*)

转录和解析音频文件。

document_loaders.parsers.doc_intelligence.AzureAIDocumentIntelligenceParser(...)

使用Azure文档智能(原表单识别器)加载PDF。

document_loaders.parsers.docai.DocAIParsingResults(...)

用于存储Document AI解析结果的数据类。

document_loaders.parsers.documentloader_adapter.DocumentLoaderAsParser(...)

document_loaders.parsers.generic.MimeTypeBasedParser(...)

使用mime类型来解析blob的解析器。

document_loaders.parsers.grobid.GrobidParser(...)

使用 Grobid 加载文章 PDF 文件。

document_loaders.parsers.grobid.ServerUnavailableException

当Grobid服务器不可用时引发的异常。

document_loaders.parsers.html.bs4.BS4HTMLParser(*)

使用Beautiful Soup解析HTML文件。

document_loaders.parsers.language.c.CSegmenter(code)

C语言的代码分段器。

document_loaders.parsers.language.cobol.CobolSegmenter(code)

COBOL 的代码分段器。

document_loaders.parsers.language.code_segmenter.CodeSegmenter(code)

代码分段器的抽象类。

document_loaders.parsers.language.cpp.CPPSegmenter(code)

C++ 代码分段器。

document_loaders.parsers.language.csharp.CSharpSegmenter(code)

C# 代码分段器。

document_loaders.parsers.language.elixir.ElixirSegmenter(code)

Elixir 代码分段器。

document_loaders.parsers.language.go.GoSegmenter(code)

Go代码分段器。

document_loaders.parsers.language.java.JavaSegmenter(code)

Java代码分段器。

document_loaders.parsers.language.javascript.JavaScriptSegmenter(code)

JavaScript 代码分段器。

document_loaders.parsers.language.kotlin.KotlinSegmenter(code)

Kotlin 的代码分段器。

document_loaders.parsers.language.language_parser.LanguageParser([...])

使用相应的编程语言语法进行解析。

document_loaders.parsers.language.lua.LuaSegmenter(code)

Lua代码分段器。

document_loaders.parsers.language.perl.PerlSegmenter(code)

Perl 的代码分段器。

document_loaders.parsers.language.php.PHPSegmenter(code)

PHP代码分段器。

document_loaders.parsers.language.python.PythonSegmenter(code)

Python 的代码分段器。

document_loaders.parsers.language.ruby.RubySegmenter(code)

Ruby代码分段器。

document_loaders.parsers.language.rust.RustSegmenter(code)

Rust 代码分段器。

document_loaders.parsers.language.scala.ScalaSegmenter(code)

Scala代码分段器。

document_loaders.parsers.language.sql.SQLSegmenter(code)

SQL代码分段器。

document_loaders.parsers.language.tree_sitter_segmenter.TreeSitterSegmenter(code)

使用tree-sitter库的`CodeSegmenter`的抽象类。

document_loaders.parsers.language.typescript.TypeScriptSegmenter(code)

TypeScript 的代码分段器。

document_loaders.parsers.msword.MsWordParser()

从blob中解析Microsoft Word文档。

document_loaders.parsers.pdf.AmazonTextractPDFParser([...])

PDF 文件发送到 Amazon Textract 并解析它们。

document_loaders.parsers.pdf.DocumentIntelligenceParser(...)

使用Azure文档智能(原表单识别器)加载PDF并在字符级别进行分块。

document_loaders.parsers.pdf.PDFMinerParser([...])

使用 PDFMiner 解析 PDF

document_loaders.parsers.pdf.PDFPlumberParser([...])

使用 PDFPlumber 解析 PDF

document_loaders.parsers.pdf.PyMuPDFParser([...])

使用 PyMuPDF 解析 PDF

document_loaders.parsers.pdf.PyPDFParser([...])

使用 pypdf 加载 PDF

document_loaders.parsers.pdf.PyPDFium2Parser([...])

使用 PyPDFium2 解析 PDF

document_loaders.parsers.txt.TextParser()

用于解析文本块的解析器。

document_loaders.parsers.vsdx.VsdxParser()

用于解析vsdx文件的解析器。

document_loaders.pdf.AmazonTextractPDFLoader(...)

从本地文件系统、HTTP 或 S3 加载 PDF 文件。

document_loaders.pdf.BasePDFLoader(file_path, *)

PDF 文件的基础加载器类。

document_loaders.pdf.DedocPDFLoader(file_path, *)

DedocPDFLoader 文档加载器集成,用于使用 dedoc 加载 PDF 文件。文件加载器可以自动检测 PDF 文档中文本层的正确性。请注意,__init__ 方法支持的参数与 DedocBaseLoader 的参数不同。

document_loaders.pdf.DocumentIntelligenceLoader(...)

使用Azure文档智能加载PDF

document_loaders.pdf.MathpixPDFLoader(file_path)

使用Mathpix服务加载PDF文件。

document_loaders.pdf.OnlinePDFLoader(...[, ...])

加载在线PDF

document_loaders.pdf.PDFMinerLoader(file_path, *)

使用 PDFMiner 加载 PDF 文件。

document_loaders.pdf.PDFMinerPDFasHTMLLoader(...)

使用PDFMinerPDF文件加载为HTML内容。

document_loaders.pdf.PDFPlumberLoader(file_path)

使用 pdfplumber 加载 PDF 文件。

document_loaders.pdf.PagedPDFSplitter

PyPDFLoader 的别名

document_loaders.pdf.PyMuPDFLoader(file_path, *)

使用 PyMuPDF 加载 PDF 文件。

document_loaders.pdf.PyPDFDirectoryLoader(path)

使用 pypdf 加载包含 PDF 文件的目录,并在字符级别进行分块。

document_loaders.pdf.PyPDFLoader(file_path)

PyPDFLoader 文档加载器集成

document_loaders.pdf.PyPDFium2Loader(...[, ...])

使用 pypdfium2 加载 PDF 并在字符级别进行分块。

document_loaders.pdf.UnstructuredPDFLoader(...)

使用Unstructured加载PDF文件。

document_loaders.pdf.ZeroxPDFLoader(file_path)

使用Zerox库的文档加载器:getomni-ai/zerox

document_loaders.pebblo.PebbloSafeLoader(...)

Pebblo Safe Loader 类是一个围绕文档加载器的包装器,使数据能够被审查。

document_loaders.pebblo.PebbloTextLoader(...)

用于加载文本数据的加载器。

document_loaders.polars_dataframe.PolarsDataFrameLoader(...)

加载 Polars 数据框。

document_loaders.powerpoint.UnstructuredPowerPointLoader(...)

使用Unstructured加载Microsoft PowerPoint文件。

document_loaders.psychic.PsychicLoader(...)

Psychic.dev 加载。

document_loaders.pubmed.PubMedLoader(query)

PubMed生物医学库加载。

document_loaders.pyspark_dataframe.PySparkDataFrameLoader([...])

加载 PySpark 数据框。

document_loaders.python.PythonLoader(file_path)

加载Python文件,如果指定了非默认编码,则尊重该编码。

document_loaders.quip.QuipLoader(api_url, ...)

加载 Quip 页面。

document_loaders.readthedocs.ReadTheDocsLoader(path)

加载 ReadTheDocs 文档目录。

document_loaders.recursive_url_loader.RecursiveUrlLoader(url)

从根URL递归加载所有子链接。

document_loaders.reddit.RedditPostsLoader(...)

加载 Reddit 帖子。

document_loaders.roam.RoamLoader(path)

从目录加载Roam文件。

document_loaders.rocksetdb.ColumnNotFoundError(...)

列未找到错误。

document_loaders.rocksetdb.RocksetLoader(...)

Rockset数据库加载。

document_loaders.rspace.RSpaceLoader(global_id)

从RSpace笔记本、文件夹、文档或PDF图库文件中加载内容。

document_loaders.rss.RSSFeedLoader([urls, ...])

使用UnstructuredRSS源加载新闻文章。

document_loaders.rst.UnstructuredRSTLoader(...)

使用Unstructured加载RST文件。

document_loaders.rtf.UnstructuredRTFLoader(...)

使用Unstructured加载RTF文件。

document_loaders.s3_directory.S3DirectoryLoader(bucket)

Amazon AWS S3目录加载。

document_loaders.s3_file.S3FileLoader(...[, ...])

Amazon AWS S3文件加载。

document_loaders.scrapfly.ScrapflyLoader(urls, *)

使用Scrapfly.io将URL转换为LLM可访问的Markdown。

document_loaders.scrapingant.ScrapingAntLoader(urls, *)

使用ScrapingAnt将URL转换为LLM可访问的Markdown。

document_loaders.sharepoint.SharePointLoader

SharePoint 加载。

document_loaders.sitemap.SitemapLoader(web_path)

加载站点地图及其URL。

document_loaders.slack_directory.SlackDirectoryLoader(...)

Slack目录转储中加载。

document_loaders.snowflake_loader.SnowflakeLoader(...)

Snowflake API加载。

document_loaders.spider.SpiderLoader(url, *)

使用Spider AI将网页加载为文档。

document_loaders.spreedly.SpreedlyLoader(...)

Spreedly API加载。

document_loaders.sql_database.SQLDatabaseLoader(...)

通过查询SQLAlchemy支持的数据库表来加载文档。

document_loaders.srt.SRTLoader(file_path)

加载 .srt (字幕) 文件。

document_loaders.stripe.StripeLoader(resource)

Stripe API加载。

document_loaders.surrealdb.SurrealDBLoader([...])

加载 SurrealDB 文档。

document_loaders.telegram.TelegramChatApiLoader([...])

加载 Telegram 聊天 json 目录转储。

document_loaders.telegram.TelegramChatFileLoader(path)

Telegram聊天转储中加载。

document_loaders.telegram.TelegramChatLoader

TelegramChatFileLoader 的别名

document_loaders.tencent_cos_directory.TencentCOSDirectoryLoader(...)

腾讯云 COS目录加载。

document_loaders.tencent_cos_file.TencentCOSFileLoader(...)

腾讯云COS文件加载。

document_loaders.tensorflow_datasets.TensorflowDatasetLoader(...)

TensorFlow Dataset加载。

document_loaders.text.TextLoader(file_path)

加载文本文件。

document_loaders.tidb.TiDBLoader(...[, ...])

从TiDB加载文档。

document_loaders.tomarkdown.ToMarkdownLoader(...)

使用 2markdown API 加载 HTML

document_loaders.toml.TomlLoader(source)

加载 TOML 文件。

document_loaders.trello.TrelloLoader(client, ...)

Trello看板加载卡片。

document_loaders.tsv.UnstructuredTSVLoader(...)

使用Unstructured加载TSV文件。

document_loaders.twitter.TwitterTweetLoader(...)

加载 Twitter 推文。

document_loaders.unstructured.UnstructuredBaseLoader([...])

使用 Unstructured 的基础加载器。

document_loaders.url.UnstructuredURLLoader(urls)

使用Unstructured从远程URL加载文件。

document_loaders.url_playwright.PlaywrightEvaluator()

所有评估器的抽象基类。

document_loaders.url_playwright.PlaywrightURLLoader(urls)

使用Playwright加载HTML页面并使用Unstructured进行解析。

document_loaders.url_playwright.UnstructuredHtmlEvaluator([...])

使用unstructured库评估页面HTML内容。

document_loaders.url_selenium.SeleniumURLLoader(urls)

使用 Selenium 加载 HTML 页面并使用 Unstructured 进行解析。

document_loaders.vsdx.VsdxLoader(file_path)

使用文件路径进行初始化。

document_loaders.weather.WeatherDataLoader(...)

使用Open Weather Map API加载天气数据。

document_loaders.web_base.WebBaseLoader([...])

WebBaseLoader 文档加载器集成

document_loaders.whatsapp_chat.WhatsAppChatLoader(path)

加载 WhatsApp 消息文本文件。

document_loaders.wikipedia.WikipediaLoader(query)

Wikipedia加载。

document_loaders.word_document.Docx2txtLoader(...)

使用 docx2txt 加载 DOCX 文件并在字符级别进行分块。

document_loaders.word_document.UnstructuredWordDocumentLoader(...)

使用Unstructured加载Microsoft Word文件。

document_loaders.xml.UnstructuredXMLLoader(...)

使用Unstructured加载XML文件。

document_loaders.xorbits.XorbitsLoader(...)

加载 Xorbits 数据框。

document_loaders.youtube.GoogleApiClient([...])

通用的Google API客户端。

document_loaders.youtube.GoogleApiYoutubeLoader(...)

YouTube频道加载所有视频。

document_loaders.youtube.TranscriptFormat(value)

YoutubeLoader 的转录输出格式。

document_loaders.youtube.YoutubeLoader(video_id)

加载 YouTube 视频字幕。

document_loaders.yuque.YuqueLoader(access_token)

Yuque加载文档。

函数

document_loaders.base_o365.fetch_extensions(...)

获取指定文件类型的MIME类型。

document_loaders.base_o365.fetch_mime_types(...)

获取指定文件类型的MIME类型。

document_loaders.chatgpt.concatenate_rows(...)

将消息信息组合成可读的格式,准备使用。

document_loaders.facebook_chat.concatenate_rows(row)

将消息信息组合成可读格式,准备使用。

document_loaders.helpers.detect_file_encodings(...)

尝试检测文件编码。

document_loaders.notebook.concatenate_cells(...)

将单元格信息组合成可读格式,准备使用。

document_loaders.notebook.remove_newlines(x)

递归地移除换行符,无论它们存储在何种数据结构中。

document_loaders.parsers.pdf.extract_from_images_with_rapidocr(images)

使用RapidOCR从图像中提取文本。

document_loaders.parsers.registry.get_parser(...)

通过解析器名称获取解析器。

document_loaders.rocksetdb.default_joiner(docs)

内容列的默认连接器。

document_loaders.telegram.concatenate_rows(row)

将消息信息组合成可读的格式,准备使用。

document_loaders.telegram.text_to_docs(text)

将字符串或字符串列表转换为带有元数据的文档列表。

document_loaders.unstructured.get_elements_from_api([...])

Unstructured API中检索元素列表。

document_loaders.unstructured.satisfies_min_unstructured_version(...)

检查安装的Unstructured版本是否超过了相关功能的最低版本要求。

document_loaders.unstructured.validate_unstructured_version(...)

如果Unstructured版本未超过指定的最小值,则引发错误。

document_loaders.whatsapp_chat.concatenate_rows(...)

将消息信息组合成可读的格式,以便使用。

已弃用的类