document_loaders
#
文档加载器 是用于加载文档的类。
文档加载器通常用于一次性加载大量文档。
类层次结构:
BaseLoader --> <name>Loader # Examples: TextLoader, UnstructuredFileLoader
主要助手:
Document, <name>TextSplitter
类
|
从目录加载acreom保险库。 |
使用CDK实现的Airbyte源连接器加载。 |
|
使用 Airbyte 源连接器从 Gong 加载。 |
|
使用Airbyte源连接器从Hubspot加载。 |
|
使用Airbyte源连接器从Salesforce加载。 |
|
使用Airbyte源连接器从Shopify加载。 |
|
使用Airbyte源连接器从Stripe加载。 |
|
使用 Airbyte 源连接器从 Typeform 加载。 |
|
使用Airbyte源连接器从Zendesk Support加载。 |
|
加载本地的Airbyte json文件。 |
|
加载 Airtable 表格。 |
|
从Apify网络抓取、爬取和数据提取平台加载数据集。 |
|
从ArcGIS FeatureLayer加载记录。 |
|
|
从Arxiv加载查询结果。 |
加载 AssemblyAI 音频转录。 |
|
|
加载 AssemblyAI 音频转录。 |
用于文档加载器的转录格式。 |
|
异步加载 HTML。 |
|
|
从AWS Athena加载文档。 |
加载 AZLyrics 网页。 |
|
从Azure AI数据加载。 |
|
|
从Azure Blob Storage容器加载。 |
|
从Azure Blob Storage文件加载。 |
|
从百度BOS目录加载。 |
|
从百度云 BOS文件加载。 |
所有使用O365包的加载器的基类 |
|
|
加载一个bibtex文件。 |
从BiliBili视频中加载获取字幕。 |
|
加载一个Blackboard课程。 |
|
|
从云URL或文件加载blobs。 |
|
加载本地文件系统中的blobs。 |
|
将YouTube网址加载为音频文件。 |
从区块链智能合约加载元素。 |
|
支持的区块链的枚举器。 |
|
使用Brave Search引擎加载。 |
|
使用托管在Browserbase上的无头浏览器加载预渲染的网页。 |
|
使用Browserless的/content端点加载网页。 |
|
用于Apache Cassandra的文档加载器。 |
|
|
从导出的ChatGPT数据中加载对话。 |
Microsoft 编译的 HTML 帮助 (CHM) 解析器。 |
|
使用Unstructured加载CHM文件。 |
|
使用无头模式的Chromium实例从URL中抓取HTML页面。 |
|
|
加载 College Confidential 网页。 |
并发加载和解析文档。 |
|
加载 Confluence 页面。 |
|
Confluence页面内容格式的枚举器。 |
|
|
加载 CoNLL-U 文件。 |
从Couchbase加载文档。 |
|
|
将CSV文件加载到文档列表中。 |
使用Unstructured加载CSV文件。 |
|
加载 Cube 语义层 元数据。 |
|
加载 Datadog 日志。 |
|
使用数据框对象进行初始化。 |
|
加载 Pandas 数据框。 |
|
使用dedoc API加载文件。文件加载器会自动检测文件类型(即使扩展名错误)。默认情况下,加载器会调用本地托管的dedoc API。有关dedoc API的更多信息可以在dedoc文档中找到:https://dedoc.readthedocs.io/en/latest/dedoc_api_usage/api.html。 |
|
使用 dedoc (https://dedoc.readthedocs.io) 的基础加载器。 |
|
DedocFileLoader 文档加载器集成,用于使用 dedoc 加载文件。 |
|
加载 Diffbot json 文件。 |
|
从目录加载。 |
|
加载 Discord 聊天记录。 |
|
|
使用Azure文档智能加载PDF。 |
从Docusaurus文档加载。 |
|
从Dropbox加载文件。 |
|
从 DuckDB 加载。 |
|
使用 extract_msg 加载 Outlook 邮件文件。 |
|
使用 Unstructured 加载电子邮件文件。 |
|
使用Unstructured加载EPub文件。 |
|
从Ethereum主网加载交易。 |
|
从EverNote加载。 |
|
使用 Unstructured 加载 Microsoft Excel 文件。 |
|
加载Facebook Chat消息目录转储。 |
|
|
从 FaunaDB 加载。 |
加载 Figma 文件。 |
|
FireCrawlLoader 文档加载器集成 |
|
通用文档加载器。 |
|
加载 geopandas 数据框。 |
|
|
加载 Git 仓库文件。 |
|
加载 GitBook 数据。 |
加载 GitHub 仓库的问题。 |
|
加载 GitHub 仓库的问题。 |
|
加载 GitHub 文件 |
|
从AWS Glue加载表结构。 |
|
从 Gutenberg.org 加载。 |
|
文件编码作为NamedTuple。 |
|
|
加载 Hacker News 数据。 |
使用 Unstructured 加载 HTML 文件。 |
|
|
__ModuleName__ 文档加载器集成 |
|
从Hugging Face Hub数据集中加载。 |
|
从Hugging Face Hub加载模型信息,包括README内容。 |
|
加载 iFixit 维修指南、设备维基和答案。 |
使用 Unstructured 加载 PNG 和 JPG 文件。 |
|
加载图像字幕。 |
|
加载 IMSDb 网页。 |
|
|
从 IUGU 加载。 |
从Joplin加载笔记。 |
|
使用 jq 模式加载 JSON 文件。 |
|
从 Kinetica API 加载。 |
|
用于lakeFS的客户端。 |
|
|
从 lakeFS 加载。 |
从 lakeFS 加载为非结构化数据。 |
|
从 LarkSuite (FeiShu) 加载。 |
|
从 LarkSuite (FeiShu) wiki 加载。 |
|
使用LLMSherpa加载文档。 |
|
使用Unstructured加载Markdown文件。 |
|
加载Mastodon的'toots'。 |
|
从阿里云MaxCompute表加载。 |
|
从XML文件加载MediaWiki转储。 |
|
从多个加载器中合并文档 |
|
|
使用BeautifulSoup解析MHTML文件。 |
从区块链智能合约加载元素。 |
|
从Modern Treasury加载。 |
|
加载MongoDB文档。 |
|
NeedleLoader 是一个用于管理存储在集合中的文档的文档加载器。 |
|
|
使用Unstructured从URL加载新闻文章。 |
加载 Jupyter notebook (.ipynb) 文件。 |
|
加载 Notion 目录 转储。 |
|
从Notion DB加载。 |
|
|
使用Nuclia Understanding API从任何文件类型加载。 |
从华为OBS目录加载。 |
|
从华为OBS文件加载。 |
|
从目录加载Obsidian文件。 |
|
使用Unstructured加载OpenOffice ODT文件。 |
|
从 Microsoft OneDrive 加载文档。 |
|
从Microsoft OneDrive加载文件。 |
|
从OneNote笔记本加载页面。 |
|
从Open City加载。 |
|
|
从oracle adb加载 |
使用OracleDocLoader读取文档 :param conn: Oracle连接, :param params: 加载器参数。 |
|
读取文件 |
|
使用Oracle分块器分割文本。 |
|
解析 Oracle 文档元数据... |
|
使用Unstructured加载Org-Mode文件。 |
|
使用Azure OpenAI Whisper转录和解析音频文件。 |
|
使用faster-whisper转录和解析音频文件。 |
|
转录和解析音频文件。 |
|
|
使用OpenAI Whisper模型转录和解析音频文件。 |
转录和解析音频文件。 |
|
|
使用Azure文档智能(原表单识别器)加载PDF。 |
用于存储Document AI解析结果的数据类。 |
|
|
|
使用mime类型来解析blob的解析器。 |
|
使用 Grobid 加载文章 PDF 文件。 |
|
当Grobid服务器不可用时引发的异常。 |
|
使用Beautiful Soup解析HTML文件。 |
|
C语言的代码分段器。 |
|
|
COBOL 的代码分段器。 |
|
代码分段器的抽象类。 |
C++ 代码分段器。 |
|
|
C# 代码分段器。 |
|
Elixir 代码分段器。 |
Go代码分段器。 |
|
Java代码分段器。 |
|
|
JavaScript 代码分段器。 |
|
Kotlin 的代码分段器。 |
|
使用相应的编程语言语法进行解析。 |
Lua代码分段器。 |
|
Perl 的代码分段器。 |
|
PHP代码分段器。 |
|
|
Python 的代码分段器。 |
Ruby代码分段器。 |
|
Rust 代码分段器。 |
|
|
Scala代码分段器。 |
SQL代码分段器。 |
|
|
使用tree-sitter库的`CodeSegmenter`的抽象类。 |
|
TypeScript 的代码分段器。 |
从blob中解析Microsoft Word文档。 |
|
将 PDF 文件发送到 Amazon Textract 并解析它们。 |
|
|
使用Azure文档智能(原表单识别器)加载PDF并在字符级别进行分块。 |
使用 PDFMiner 解析 PDF。 |
|
使用 PDFPlumber 解析 PDF。 |
|
使用 PyMuPDF 解析 PDF。 |
|
使用 pypdf 加载 PDF |
|
使用 PyPDFium2 解析 PDF。 |
|
用于解析文本块的解析器。 |
|
用于解析vsdx文件的解析器。 |
|
从本地文件系统、HTTP 或 S3 加载 PDF 文件。 |
|
|
PDF 文件的基础加载器类。 |
|
DedocPDFLoader 文档加载器集成,用于使用 dedoc 加载 PDF 文件。文件加载器可以自动检测 PDF 文档中文本层的正确性。请注意,__init__ 方法支持的参数与 DedocBaseLoader 的参数不同。 |
使用Azure文档智能加载PDF |
|
|
使用Mathpix服务加载PDF文件。 |
|
加载在线PDF。 |
|
使用 PDFMiner 加载 PDF 文件。 |
使用PDFMiner将PDF文件加载为HTML内容。 |
|
|
使用 pdfplumber 加载 PDF 文件。 |
|
|
|
使用 PyMuPDF 加载 PDF 文件。 |
使用 pypdf 加载包含 PDF 文件的目录,并在字符级别进行分块。 |
|
|
PyPDFLoader 文档加载器集成 |
|
使用 pypdfium2 加载 PDF 并在字符级别进行分块。 |
使用Unstructured加载PDF文件。 |
|
|
使用Zerox库的文档加载器:getomni-ai/zerox |
Pebblo Safe Loader 类是一个围绕文档加载器的包装器,使数据能够被审查。 |
|
用于加载文本数据的加载器。 |
|
|
加载 Polars 数据框。 |
|
使用Unstructured加载Microsoft PowerPoint文件。 |
从 Psychic.dev 加载。 |
|
从PubMed生物医学库加载。 |
|
|
加载 PySpark 数据框。 |
|
加载Python文件,如果指定了非默认编码,则尊重该编码。 |
|
加载 Quip 页面。 |
加载 ReadTheDocs 文档目录。 |
|
|
从根URL递归加载所有子链接。 |
加载 Reddit 帖子。 |
|
从目录加载Roam文件。 |
|
列未找到错误。 |
|
从Rockset数据库加载。 |
|
|
从RSpace笔记本、文件夹、文档或PDF图库文件中加载内容。 |
|
使用Unstructured从RSS源加载新闻文章。 |
使用Unstructured加载RST文件。 |
|
使用Unstructured加载RTF文件。 |
|
从Amazon AWS S3目录加载。 |
|
|
从Amazon AWS S3文件加载。 |
使用Scrapfly.io将URL转换为LLM可访问的Markdown。 |
|
使用ScrapingAnt将URL转换为LLM可访问的Markdown。 |
|
从 SharePoint 加载。 |
|
|
加载站点地图及其URL。 |
从Slack目录转储中加载。 |
|
从Snowflake API加载。 |
|
使用Spider AI将网页加载为文档。 |
|
从Spreedly API加载。 |
|
通过查询SQLAlchemy支持的数据库表来加载文档。 |
|
|
加载 .srt (字幕) 文件。 |
|
从Stripe API加载。 |
加载 SurrealDB 文档。 |
|
加载 Telegram 聊天 json 目录转储。 |
|
从Telegram聊天转储中加载。 |
|
|
从腾讯云 COS目录加载。 |
从腾讯云COS文件加载。 |
|
|
从TensorFlow Dataset加载。 |
|
加载文本文件。 |
|
从TiDB加载文档。 |
使用 2markdown API 加载 HTML。 |
|
|
加载 TOML 文件。 |
|
从Trello看板加载卡片。 |
使用Unstructured加载TSV文件。 |
|
加载 Twitter 推文。 |
|
使用 Unstructured 的基础加载器。 |
|
使用Unstructured从远程URL加载文件。 |
|
所有评估器的抽象基类。 |
|
使用Playwright加载HTML页面并使用Unstructured进行解析。 |
|
|
使用unstructured库评估页面HTML内容。 |
使用 Selenium 加载 HTML 页面并使用 Unstructured 进行解析。 |
|
|
使用文件路径进行初始化。 |
使用Open Weather Map API加载天气数据。 |
|
WebBaseLoader 文档加载器集成 |
|
加载 WhatsApp 消息文本文件。 |
|
从Wikipedia加载。 |
|
使用 docx2txt 加载 DOCX 文件并在字符级别进行分块。 |
|
|
使用Unstructured加载Microsoft Word文件。 |
使用Unstructured加载XML文件。 |
|
加载 Xorbits 数据框。 |
|
通用的Google API客户端。 |
|
从YouTube频道加载所有视频。 |
|
YoutubeLoader 的转录输出格式。 |
|
|
加载 YouTube 视频字幕。 |
|
从Yuque加载文档。 |
函数
获取指定文件类型的MIME类型。 |
|
获取指定文件类型的MIME类型。 |
|
将消息信息组合成可读的格式,准备使用。 |
|
将消息信息组合成可读格式,准备使用。 |
|
尝试检测文件编码。 |
|
将单元格信息组合成可读格式,准备使用。 |
|
递归地移除换行符,无论它们存储在何种数据结构中。 |
|
|
使用RapidOCR从图像中提取文本。 |
通过解析器名称获取解析器。 |
|
内容列的默认连接器。 |
|
将消息信息组合成可读的格式,准备使用。 |
|
将字符串或字符串列表转换为带有元数据的文档列表。 |
|
从Unstructured API中检索元素列表。 |
|
|
检查安装的Unstructured版本是否超过了相关功能的最低版本要求。 |
|
如果Unstructured版本未超过指定的最小值,则引发错误。 |
将消息信息组合成可读的格式,以便使用。 |
已弃用的类