`document_loaders`#

文档加载器 是用于加载文档的类。

文档加载器通常用于一次性加载大量文档。

类层次结构：

BaseLoader --> <name>Loader  # Examples: TextLoader, UnstructuredFileLoader

主要助手：

Document, <name>TextSplitter

类

`document_loaders.acreom.AcreomLoader`(path[, ...])	从目录加载acreom保险库。
`document_loaders.airbyte.AirbyteCDKLoader`(...)	使用CDK实现的Airbyte源连接器加载。
`document_loaders.airbyte.AirbyteGongLoader`(...)	使用 Airbyte 源连接器从 Gong 加载。
`document_loaders.airbyte.AirbyteHubspotLoader`(...)	使用Airbyte源连接器从Hubspot加载。
`document_loaders.airbyte.AirbyteSalesforceLoader`(...)	使用Airbyte源连接器从Salesforce加载。
`document_loaders.airbyte.AirbyteShopifyLoader`(...)	使用Airbyte源连接器从Shopify加载。
`document_loaders.airbyte.AirbyteStripeLoader`(...)	使用Airbyte源连接器从Stripe加载。
`document_loaders.airbyte.AirbyteTypeformLoader`(...)	使用 Airbyte 源连接器从 Typeform 加载。
`document_loaders.airbyte.AirbyteZendeskSupportLoader`(...)	使用Airbyte源连接器从Zendesk Support加载。
`document_loaders.airbyte_json.AirbyteJSONLoader`(...)	加载本地的Airbyte json文件。
`document_loaders.airtable.AirtableLoader`(...)	加载 Airtable 表格。
`document_loaders.apify_dataset.ApifyDatasetLoader`	从Apify网络抓取、爬取和数据提取平台加载数据集。
`document_loaders.arcgis_loader.ArcGISLoader`(layer)	从ArcGIS FeatureLayer加载记录。
`document_loaders.arxiv.ArxivLoader`(query[, ...])	从Arxiv加载查询结果。
`document_loaders.assemblyai.AssemblyAIAudioLoaderById`(...)	加载 AssemblyAI 音频转录。
`document_loaders.assemblyai.AssemblyAIAudioTranscriptLoader`(...)	加载 AssemblyAI 音频转录。
`document_loaders.assemblyai.TranscriptFormat`(value)	用于文档加载器的转录格式。
`document_loaders.async_html.AsyncHtmlLoader`(...)	异步加载 HTML。
`document_loaders.athena.AthenaLoader`(query, ...)	从AWS Athena加载文档。
`document_loaders.azlyrics.AZLyricsLoader`([...])	加载 AZLyrics 网页。
`document_loaders.azure_ai_data.AzureAIDataLoader`(url)	从Azure AI数据加载。
`document_loaders.azure_blob_storage_container.AzureBlobStorageContainerLoader`(...)	从Azure Blob Storage容器加载。
`document_loaders.azure_blob_storage_file.AzureBlobStorageFileLoader`(...)	从Azure Blob Storage文件加载。
`document_loaders.baiducloud_bos_directory.BaiduBOSDirectoryLoader`(...)	从百度BOS目录加载。
`document_loaders.baiducloud_bos_file.BaiduBOSFileLoader`(...)	从百度云 BOS文件加载。
`document_loaders.base_o365.O365BaseLoader`	所有使用O365包的加载器的基类
`document_loaders.bibtex.BibtexLoader`(...[, ...])	加载一个bibtex文件。
`document_loaders.bilibili.BiliBiliLoader`(...)	从BiliBili视频中加载获取字幕。
`document_loaders.blackboard.BlackboardLoader`(...)	加载一个Blackboard课程。
`document_loaders.blob_loaders.cloud_blob_loader.CloudBlobLoader`(url, *)	从云URL或文件加载blobs。
`document_loaders.blob_loaders.file_system.FileSystemBlobLoader`(path, *)	加载本地文件系统中的blobs。
`document_loaders.blob_loaders.youtube_audio.YoutubeAudioLoader`(...)	将YouTube网址加载为音频文件。
`document_loaders.blockchain.BlockchainDocumentLoader`(...)	从区块链智能合约加载元素。
`document_loaders.blockchain.BlockchainType`(value)	支持的区块链的枚举器。
`document_loaders.brave_search.BraveSearchLoader`(...)	使用Brave Search引擎加载。
`document_loaders.browserbase.BrowserbaseLoader`(urls)	使用托管在Browserbase上的无头浏览器加载预渲染的网页。
`document_loaders.browserless.BrowserlessLoader`(...)	使用Browserless的/content端点加载网页。
`document_loaders.cassandra.CassandraLoader`(...)	用于Apache Cassandra的文档加载器。
`document_loaders.chatgpt.ChatGPTLoader`(log_file)	从导出的ChatGPT数据中加载对话。
`document_loaders.chm.CHMParser`(path)	Microsoft 编译的 HTML 帮助 (CHM) 解析器。
`document_loaders.chm.UnstructuredCHMLoader`(...)	使用Unstructured加载CHM文件。
`document_loaders.chromium.AsyncChromiumLoader`(urls, *)	使用无头模式的Chromium实例从URL中抓取HTML页面。
`document_loaders.college_confidential.CollegeConfidentialLoader`([...])	加载 College Confidential 网页。
`document_loaders.concurrent.ConcurrentLoader`(...)	并发加载和解析文档。
`document_loaders.confluence.ConfluenceLoader`(url)	加载 Confluence 页面。
`document_loaders.confluence.ContentFormat`(value)	Confluence页面内容格式的枚举器。
`document_loaders.conllu.CoNLLULoader`(file_path)	加载 CoNLL-U 文件。
`document_loaders.couchbase.CouchbaseLoader`(...)	从Couchbase加载文档。
`document_loaders.csv_loader.CSVLoader`(file_path)	将CSV文件加载到文档列表中。
`document_loaders.csv_loader.UnstructuredCSVLoader`(...)	使用Unstructured加载CSV文件。
`document_loaders.cube_semantic.CubeSemanticLoader`(...)	加载 Cube 语义层元数据。
`document_loaders.datadog_logs.DatadogLogsLoader`(...)	加载 Datadog 日志。
`document_loaders.dataframe.BaseDataFrameLoader`(...)	使用数据框对象进行初始化。
`document_loaders.dataframe.DataFrameLoader`(...)	加载 Pandas 数据框。
`document_loaders.dedoc.DedocAPIFileLoader`(...)	使用dedoc API加载文件。文件加载器会自动检测文件类型（即使扩展名错误）。默认情况下，加载器会调用本地托管的dedoc API。有关dedoc API的更多信息可以在dedoc文档中找到：https://dedoc.readthedocs.io/en/latest/dedoc_api_usage/api.html。
`document_loaders.dedoc.DedocBaseLoader`(...)	使用 dedoc (https://dedoc.readthedocs.io) 的基础加载器。
`document_loaders.dedoc.DedocFileLoader`(...)	DedocFileLoader 文档加载器集成，用于使用 dedoc 加载文件。
`document_loaders.diffbot.DiffbotLoader`(...)	加载 Diffbot json 文件。
`document_loaders.directory.DirectoryLoader`(...)	从目录加载。
`document_loaders.discord.DiscordChatLoader`(...)	加载 Discord 聊天记录。
`document_loaders.doc_intelligence.AzureAIDocumentIntelligenceLoader`(...)	使用Azure文档智能加载PDF。
`document_loaders.docusaurus.DocusaurusLoader`(url)	从Docusaurus文档加载。
`document_loaders.dropbox.DropboxLoader`	从Dropbox加载文件。
`document_loaders.duckdb_loader.DuckDBLoader`(query)	从 DuckDB 加载。
`document_loaders.email.OutlookMessageLoader`(...)	使用 extract_msg 加载 Outlook 邮件文件。
`document_loaders.email.UnstructuredEmailLoader`(...)	使用 Unstructured 加载电子邮件文件。
`document_loaders.epub.UnstructuredEPubLoader`(...)	使用Unstructured加载EPub文件。
`document_loaders.etherscan.EtherscanLoader`(...)	从Ethereum主网加载交易。
`document_loaders.evernote.EverNoteLoader`(...)	从EverNote加载。
`document_loaders.excel.UnstructuredExcelLoader`(...)	使用 Unstructured 加载 Microsoft Excel 文件。
`document_loaders.facebook_chat.FacebookChatLoader`(path)	加载Facebook Chat消息目录转储。
`document_loaders.fauna.FaunaLoader`(query, ...)	从 FaunaDB 加载。
`document_loaders.figma.FigmaFileLoader`(...)	加载 Figma 文件。
`document_loaders.firecrawl.FireCrawlLoader`(url, *)	FireCrawlLoader 文档加载器集成
`document_loaders.generic.GenericLoader`(...)	通用文档加载器。
`document_loaders.geodataframe.GeoDataFrameLoader`(...)	加载 geopandas 数据框。
`document_loaders.git.GitLoader`(repo_path[, ...])	加载 Git 仓库文件。
`document_loaders.gitbook.GitbookLoader`(web_page)	加载 GitBook 数据。
`document_loaders.github.BaseGitHubLoader`	加载 GitHub 仓库的问题。
`document_loaders.github.GitHubIssuesLoader`	加载 GitHub 仓库的问题。
`document_loaders.github.GithubFileLoader`	加载 GitHub 文件
`document_loaders.glue_catalog.GlueCatalogLoader`(...)	从AWS Glue加载表结构。
`document_loaders.gutenberg.GutenbergLoader`(...)	从 Gutenberg.org 加载。
`document_loaders.helpers.FileEncoding`(...)	文件编码作为NamedTuple。
`document_loaders.hn.HNLoader`([web_path, ...])	加载 Hacker News 数据。
`document_loaders.html.UnstructuredHTMLLoader`(...)	使用 Unstructured 加载 HTML 文件。
`document_loaders.html_bs.BSHTMLLoader`(file_path)	__ModuleName__ 文档加载器集成
`document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader`(path)	从Hugging Face Hub数据集中加载。
`document_loaders.hugging_face_model.HuggingFaceModelLoader`(*)	从Hugging Face Hub加载模型信息，包括README内容。
`document_loaders.ifixit.IFixitLoader`(web_path)	加载 iFixit 维修指南、设备维基和答案。
`document_loaders.image.UnstructuredImageLoader`(...)	使用 Unstructured 加载 PNG 和 JPG 文件。
`document_loaders.image_captions.ImageCaptionLoader`(images)	加载图像字幕。
`document_loaders.imsdb.IMSDbLoader`([...])	加载 IMSDb 网页。
`document_loaders.iugu.IuguLoader`(resource[, ...])	从 IUGU 加载。
`document_loaders.joplin.JoplinLoader`([...])	从Joplin加载笔记。
`document_loaders.json_loader.JSONLoader`(...)	使用 jq 模式加载 JSON 文件。
`document_loaders.kinetica_loader.KineticaLoader`(...)	从 Kinetica API 加载。
`document_loaders.lakefs.LakeFSClient`(...)	用于lakeFS的客户端。
`document_loaders.lakefs.LakeFSLoader`(...[, ...])	从 lakeFS 加载。
`document_loaders.lakefs.UnstructuredLakeFSLoader`(...)	从 lakeFS 加载为非结构化数据。
`document_loaders.larksuite.LarkSuiteDocLoader`(...)	从 LarkSuite (FeiShu) 加载。
`document_loaders.larksuite.LarkSuiteWikiLoader`(...)	从 LarkSuite (FeiShu) wiki 加载。
`document_loaders.llmsherpa.LLMSherpaFileLoader`(...)	使用LLMSherpa加载文档。
`document_loaders.markdown.UnstructuredMarkdownLoader`(...)	使用Unstructured加载Markdown文件。
`document_loaders.mastodon.MastodonTootsLoader`(...)	加载Mastodon的'toots'。
`document_loaders.max_compute.MaxComputeLoader`(...)	从阿里云MaxCompute表加载。
`document_loaders.mediawikidump.MWDumpLoader`(...)	从XML文件加载MediaWiki转储。
`document_loaders.merge.MergedDataLoader`(loaders)	从多个加载器中合并文档
`document_loaders.mhtml.MHTMLLoader`(file_path)	使用BeautifulSoup解析MHTML文件。
`document_loaders.mintbase.MintbaseDocumentLoader`(...)	从区块链智能合约加载元素。
`document_loaders.modern_treasury.ModernTreasuryLoader`(...)	从Modern Treasury加载。
`document_loaders.mongodb.MongodbLoader`(...)	加载MongoDB文档。
`document_loaders.needle.NeedleLoader`([...])	NeedleLoader 是一个用于管理存储在集合中的文档的文档加载器。
`document_loaders.news.NewsURLLoader`(urls[, ...])	使用Unstructured从URL加载新闻文章。
`document_loaders.notebook.NotebookLoader`(path)	加载 Jupyter notebook (.ipynb) 文件。
`document_loaders.notion.NotionDirectoryLoader`(path, *)	加载 Notion 目录转储。
`document_loaders.notiondb.NotionDBLoader`(...)	从Notion DB加载。
`document_loaders.nuclia.NucliaLoader`(path, ...)	使用Nuclia Understanding API从任何文件类型加载。
`document_loaders.obs_directory.OBSDirectoryLoader`(...)	从华为OBS目录加载。
`document_loaders.obs_file.OBSFileLoader`(...)	从华为OBS文件加载。
`document_loaders.obsidian.ObsidianLoader`(path)	从目录加载Obsidian文件。
`document_loaders.odt.UnstructuredODTLoader`(...)	使用Unstructured加载OpenOffice ODT文件。
`document_loaders.onedrive.OneDriveLoader`	从 Microsoft OneDrive 加载文档。
`document_loaders.onedrive_file.OneDriveFileLoader`	从Microsoft OneDrive加载文件。
`document_loaders.onenote.OneNoteLoader`	从OneNote笔记本加载页面。
`document_loaders.open_city_data.OpenCityDataLoader`(...)	从Open City加载。
`document_loaders.oracleadb_loader.OracleAutonomousDatabaseLoader`(...)	从oracle adb加载
`document_loaders.oracleai.OracleDocLoader`(...)	使用OracleDocLoader读取文档 :param conn: Oracle连接, :param params: 加载器参数。
`document_loaders.oracleai.OracleDocReader`()	读取文件
`document_loaders.oracleai.OracleTextSplitter`(...)	使用Oracle分块器分割文本。
`document_loaders.oracleai.ParseOracleDocMetadata`()	解析 Oracle 文档元数据...
`document_loaders.org_mode.UnstructuredOrgModeLoader`(...)	使用Unstructured加载Org-Mode文件。
`document_loaders.parsers.audio.AzureOpenAIWhisperParser`(*)	使用Azure OpenAI Whisper转录和解析音频文件。
`document_loaders.parsers.audio.FasterWhisperParser`(*)	使用faster-whisper转录和解析音频文件。
`document_loaders.parsers.audio.OpenAIWhisperParser`([...])	转录和解析音频文件。
`document_loaders.parsers.audio.OpenAIWhisperParserLocal`([...])	使用OpenAI Whisper模型转录和解析音频文件。
`document_loaders.parsers.audio.YandexSTTParser`(*)	转录和解析音频文件。
`document_loaders.parsers.doc_intelligence.AzureAIDocumentIntelligenceParser`(...)	使用Azure文档智能（原表单识别器）加载PDF。
`document_loaders.parsers.docai.DocAIParsingResults`(...)	用于存储Document AI解析结果的数据类。
`document_loaders.parsers.documentloader_adapter.DocumentLoaderAsParser`(...)
`document_loaders.parsers.generic.MimeTypeBasedParser`(...)	使用mime类型来解析blob的解析器。
`document_loaders.parsers.grobid.GrobidParser`(...)	使用 Grobid 加载文章 PDF 文件。
`document_loaders.parsers.grobid.ServerUnavailableException`	当Grobid服务器不可用时引发的异常。
`document_loaders.parsers.html.bs4.BS4HTMLParser`(*)	使用Beautiful Soup解析HTML文件。
`document_loaders.parsers.language.c.CSegmenter`(code)	C语言的代码分段器。
`document_loaders.parsers.language.cobol.CobolSegmenter`(code)	COBOL 的代码分段器。
`document_loaders.parsers.language.code_segmenter.CodeSegmenter`(code)	代码分段器的抽象类。
`document_loaders.parsers.language.cpp.CPPSegmenter`(code)	C++ 代码分段器。
`document_loaders.parsers.language.csharp.CSharpSegmenter`(code)	C# 代码分段器。
`document_loaders.parsers.language.elixir.ElixirSegmenter`(code)	Elixir 代码分段器。
`document_loaders.parsers.language.go.GoSegmenter`(code)	Go代码分段器。
`document_loaders.parsers.language.java.JavaSegmenter`(code)	Java代码分段器。
`document_loaders.parsers.language.javascript.JavaScriptSegmenter`(code)	JavaScript 代码分段器。
`document_loaders.parsers.language.kotlin.KotlinSegmenter`(code)	Kotlin 的代码分段器。
`document_loaders.parsers.language.language_parser.LanguageParser`([...])	使用相应的编程语言语法进行解析。
`document_loaders.parsers.language.lua.LuaSegmenter`(code)	Lua代码分段器。
`document_loaders.parsers.language.perl.PerlSegmenter`(code)	Perl 的代码分段器。
`document_loaders.parsers.language.php.PHPSegmenter`(code)	PHP代码分段器。
`document_loaders.parsers.language.python.PythonSegmenter`(code)	Python 的代码分段器。
`document_loaders.parsers.language.ruby.RubySegmenter`(code)	Ruby代码分段器。
`document_loaders.parsers.language.rust.RustSegmenter`(code)	Rust 代码分段器。
`document_loaders.parsers.language.scala.ScalaSegmenter`(code)	Scala代码分段器。
`document_loaders.parsers.language.sql.SQLSegmenter`(code)	SQL代码分段器。
`document_loaders.parsers.language.tree_sitter_segmenter.TreeSitterSegmenter`(code)	使用tree-sitter库的`CodeSegmenter`的抽象类。
`document_loaders.parsers.language.typescript.TypeScriptSegmenter`(code)	TypeScript 的代码分段器。
`document_loaders.parsers.msword.MsWordParser`()	从blob中解析Microsoft Word文档。
`document_loaders.parsers.pdf.AmazonTextractPDFParser`([...])	将 PDF 文件发送到 Amazon Textract 并解析它们。
`document_loaders.parsers.pdf.DocumentIntelligenceParser`(...)	使用Azure文档智能（原表单识别器）加载PDF并在字符级别进行分块。
`document_loaders.parsers.pdf.PDFMinerParser`([...])	使用 PDFMiner 解析 PDF。
`document_loaders.parsers.pdf.PDFPlumberParser`([...])	使用 PDFPlumber 解析 PDF。
`document_loaders.parsers.pdf.PyMuPDFParser`([...])	使用 PyMuPDF 解析 PDF。
`document_loaders.parsers.pdf.PyPDFParser`([...])	使用 pypdf 加载 PDF
`document_loaders.parsers.pdf.PyPDFium2Parser`([...])	使用 PyPDFium2 解析 PDF。
`document_loaders.parsers.txt.TextParser`()	用于解析文本块的解析器。
`document_loaders.parsers.vsdx.VsdxParser`()	用于解析vsdx文件的解析器。
`document_loaders.pdf.AmazonTextractPDFLoader`(...)	从本地文件系统、HTTP 或 S3 加载 PDF 文件。
`document_loaders.pdf.BasePDFLoader`(file_path, *)	PDF 文件的基础加载器类。
`document_loaders.pdf.DedocPDFLoader`(file_path, *)	DedocPDFLoader 文档加载器集成，用于使用 dedoc 加载 PDF 文件。文件加载器可以自动检测 PDF 文档中文本层的正确性。请注意，__init__ 方法支持的参数与 DedocBaseLoader 的参数不同。
`document_loaders.pdf.DocumentIntelligenceLoader`(...)	使用Azure文档智能加载PDF
`document_loaders.pdf.MathpixPDFLoader`(file_path)	使用Mathpix服务加载PDF文件。
`document_loaders.pdf.OnlinePDFLoader`(...[, ...])	加载在线PDF。
`document_loaders.pdf.PDFMinerLoader`(file_path, *)	使用 PDFMiner 加载 PDF 文件。
`document_loaders.pdf.PDFMinerPDFasHTMLLoader`(...)	使用PDFMiner将PDF文件加载为HTML内容。
`document_loaders.pdf.PDFPlumberLoader`(file_path)	使用 pdfplumber 加载 PDF 文件。
`document_loaders.pdf.PagedPDFSplitter`	`PyPDFLoader` 的别名
`document_loaders.pdf.PyMuPDFLoader`(file_path, *)	使用 PyMuPDF 加载 PDF 文件。
`document_loaders.pdf.PyPDFDirectoryLoader`(path)	使用 pypdf 加载包含 PDF 文件的目录，并在字符级别进行分块。
`document_loaders.pdf.PyPDFLoader`(file_path)	PyPDFLoader 文档加载器集成
`document_loaders.pdf.PyPDFium2Loader`(...[, ...])	使用 pypdfium2 加载 PDF 并在字符级别进行分块。
`document_loaders.pdf.UnstructuredPDFLoader`(...)	使用Unstructured加载PDF文件。
`document_loaders.pdf.ZeroxPDFLoader`(file_path)	使用Zerox库的文档加载器：getomni-ai/zerox
`document_loaders.pebblo.PebbloSafeLoader`(...)	Pebblo Safe Loader 类是一个围绕文档加载器的包装器，使数据能够被审查。
`document_loaders.pebblo.PebbloTextLoader`(...)	用于加载文本数据的加载器。
`document_loaders.polars_dataframe.PolarsDataFrameLoader`(...)	加载 Polars 数据框。
`document_loaders.powerpoint.UnstructuredPowerPointLoader`(...)	使用Unstructured加载Microsoft PowerPoint文件。
`document_loaders.psychic.PsychicLoader`(...)	从 Psychic.dev 加载。
`document_loaders.pubmed.PubMedLoader`(query)	从PubMed生物医学库加载。
`document_loaders.pyspark_dataframe.PySparkDataFrameLoader`([...])	加载 PySpark 数据框。
`document_loaders.python.PythonLoader`(file_path)	加载Python文件，如果指定了非默认编码，则尊重该编码。
`document_loaders.quip.QuipLoader`(api_url, ...)	加载 Quip 页面。
`document_loaders.readthedocs.ReadTheDocsLoader`(path)	加载 ReadTheDocs 文档目录。
`document_loaders.recursive_url_loader.RecursiveUrlLoader`(url)	从根URL递归加载所有子链接。
`document_loaders.reddit.RedditPostsLoader`(...)	加载 Reddit 帖子。
`document_loaders.roam.RoamLoader`(path)	从目录加载Roam文件。
`document_loaders.rocksetdb.ColumnNotFoundError`(...)	列未找到错误。
`document_loaders.rocksetdb.RocksetLoader`(...)	从Rockset数据库加载。
`document_loaders.rspace.RSpaceLoader`(global_id)	从RSpace笔记本、文件夹、文档或PDF图库文件中加载内容。
`document_loaders.rss.RSSFeedLoader`([urls, ...])	使用Unstructured从RSS源加载新闻文章。
`document_loaders.rst.UnstructuredRSTLoader`(...)	使用Unstructured加载RST文件。
`document_loaders.rtf.UnstructuredRTFLoader`(...)	使用Unstructured加载RTF文件。
`document_loaders.s3_directory.S3DirectoryLoader`(bucket)	从Amazon AWS S3目录加载。
`document_loaders.s3_file.S3FileLoader`(...[, ...])	从Amazon AWS S3文件加载。
`document_loaders.scrapfly.ScrapflyLoader`(urls, *)	使用Scrapfly.io将URL转换为LLM可访问的Markdown。
`document_loaders.scrapingant.ScrapingAntLoader`(urls, *)	使用ScrapingAnt将URL转换为LLM可访问的Markdown。
`document_loaders.sharepoint.SharePointLoader`	从 SharePoint 加载。
`document_loaders.sitemap.SitemapLoader`(web_path)	加载站点地图及其URL。
`document_loaders.slack_directory.SlackDirectoryLoader`(...)	从Slack目录转储中加载。
`document_loaders.snowflake_loader.SnowflakeLoader`(...)	从Snowflake API加载。
`document_loaders.spider.SpiderLoader`(url, *)	使用Spider AI将网页加载为文档。
`document_loaders.spreedly.SpreedlyLoader`(...)	从Spreedly API加载。
`document_loaders.sql_database.SQLDatabaseLoader`(...)	通过查询SQLAlchemy支持的数据库表来加载文档。
`document_loaders.srt.SRTLoader`(file_path)	加载 .srt (字幕) 文件。
`document_loaders.stripe.StripeLoader`(resource)	从Stripe API加载。
`document_loaders.surrealdb.SurrealDBLoader`([...])	加载 SurrealDB 文档。
`document_loaders.telegram.TelegramChatApiLoader`([...])	加载 Telegram 聊天 json 目录转储。
`document_loaders.telegram.TelegramChatFileLoader`(path)	从Telegram聊天转储中加载。
`document_loaders.telegram.TelegramChatLoader`	`TelegramChatFileLoader` 的别名
`document_loaders.tencent_cos_directory.TencentCOSDirectoryLoader`(...)	从腾讯云 COS目录加载。
`document_loaders.tencent_cos_file.TencentCOSFileLoader`(...)	从腾讯云COS文件加载。
`document_loaders.tensorflow_datasets.TensorflowDatasetLoader`(...)	从TensorFlow Dataset加载。
`document_loaders.text.TextLoader`(file_path)	加载文本文件。
`document_loaders.tidb.TiDBLoader`(...[, ...])	从TiDB加载文档。
`document_loaders.tomarkdown.ToMarkdownLoader`(...)	使用 2markdown API 加载 HTML。
`document_loaders.toml.TomlLoader`(source)	加载 TOML 文件。
`document_loaders.trello.TrelloLoader`(client, ...)	从Trello看板加载卡片。
`document_loaders.tsv.UnstructuredTSVLoader`(...)	使用Unstructured加载TSV文件。
`document_loaders.twitter.TwitterTweetLoader`(...)	加载 Twitter 推文。
`document_loaders.unstructured.UnstructuredBaseLoader`([...])	使用 Unstructured 的基础加载器。
`document_loaders.url.UnstructuredURLLoader`(urls)	使用Unstructured从远程URL加载文件。
`document_loaders.url_playwright.PlaywrightEvaluator`()	所有评估器的抽象基类。
`document_loaders.url_playwright.PlaywrightURLLoader`(urls)	使用Playwright加载HTML页面并使用Unstructured进行解析。
`document_loaders.url_playwright.UnstructuredHtmlEvaluator`([...])	使用unstructured库评估页面HTML内容。
`document_loaders.url_selenium.SeleniumURLLoader`(urls)	使用 Selenium 加载 HTML 页面并使用 Unstructured 进行解析。
`document_loaders.vsdx.VsdxLoader`(file_path)	使用文件路径进行初始化。
`document_loaders.weather.WeatherDataLoader`(...)	使用Open Weather Map API加载天气数据。
`document_loaders.web_base.WebBaseLoader`([...])	WebBaseLoader 文档加载器集成
`document_loaders.whatsapp_chat.WhatsAppChatLoader`(path)	加载 WhatsApp 消息文本文件。
`document_loaders.wikipedia.WikipediaLoader`(query)	从Wikipedia加载。
`document_loaders.word_document.Docx2txtLoader`(...)	使用 docx2txt 加载 DOCX 文件并在字符级别进行分块。
`document_loaders.word_document.UnstructuredWordDocumentLoader`(...)	使用Unstructured加载Microsoft Word文件。
`document_loaders.xml.UnstructuredXMLLoader`(...)	使用Unstructured加载XML文件。
`document_loaders.xorbits.XorbitsLoader`(...)	加载 Xorbits 数据框。
`document_loaders.youtube.GoogleApiClient`([...])	通用的Google API客户端。
`document_loaders.youtube.GoogleApiYoutubeLoader`(...)	从YouTube频道加载所有视频。
`document_loaders.youtube.TranscriptFormat`(value)	YoutubeLoader 的转录输出格式。
`document_loaders.youtube.YoutubeLoader`(video_id)	加载 YouTube 视频字幕。
`document_loaders.yuque.YuqueLoader`(access_token)	从Yuque加载文档。

函数

`document_loaders.base_o365.fetch_extensions`(...)	获取指定文件类型的MIME类型。
`document_loaders.base_o365.fetch_mime_types`(...)	获取指定文件类型的MIME类型。
`document_loaders.chatgpt.concatenate_rows`(...)	将消息信息组合成可读的格式，准备使用。
`document_loaders.facebook_chat.concatenate_rows`(row)	将消息信息组合成可读格式，准备使用。
`document_loaders.helpers.detect_file_encodings`(...)	尝试检测文件编码。
`document_loaders.notebook.concatenate_cells`(...)	将单元格信息组合成可读格式，准备使用。
`document_loaders.notebook.remove_newlines`(x)	递归地移除换行符，无论它们存储在何种数据结构中。
`document_loaders.parsers.pdf.extract_from_images_with_rapidocr`(images)	使用RapidOCR从图像中提取文本。
`document_loaders.parsers.registry.get_parser`(...)	通过解析器名称获取解析器。
`document_loaders.rocksetdb.default_joiner`(docs)	内容列的默认连接器。
`document_loaders.telegram.concatenate_rows`(row)	将消息信息组合成可读的格式，准备使用。
`document_loaders.telegram.text_to_docs`(text)	将字符串或字符串列表转换为带有元数据的文档列表。
`document_loaders.unstructured.get_elements_from_api`([...])	从Unstructured API中检索元素列表。
`document_loaders.unstructured.satisfies_min_unstructured_version`(...)	检查安装的Unstructured版本是否超过了相关功能的最低版本要求。
`document_loaders.unstructured.validate_unstructured_version`(...)	如果Unstructured版本未超过指定的最小值，则引发错误。
`document_loaders.whatsapp_chat.concatenate_rows`(...)	将消息信息组合成可读的格式，以便使用。

已弃用的类

`document_loaders.astradb.AstraDBLoader`(...)
`document_loaders.bigquery.BigQueryLoader`(query)
`document_loaders.docugami.DocugamiLoader`
`document_loaders.gcs_directory.GCSDirectoryLoader`(...)
`document_loaders.gcs_file.GCSFileLoader`(...)
`document_loaders.google_speech_to_text.GoogleSpeechToTextLoader`(...)
`document_loaders.googledrive.GoogleDriveLoader`
`document_loaders.parsers.docai.DocAIParser`(*)
`document_loaders.unstructured.UnstructuredAPIFileIOLoader`(file, *)
`document_loaders.unstructured.UnstructuredAPIFileLoader`(...)
`document_loaders.unstructured.UnstructuredFileIOLoader`(file, *)
`document_loaders.unstructured.UnstructuredFileLoader`(...)

document_loaders#

`document_loaders`#