文档加载器
文档加载器将数据加载到标准的LangChain文档格式中。
每个DocumentLoader都有其特定的参数,但它们都可以通过.load方法以相同的方式调用。 一个示例用例如下:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API Reference:CSVLoader
网页
以下文档加载器允许您加载网页。
请参阅本指南作为起点:如何:加载网页。
文档加载器 | 描述 | 包/API |
---|---|---|
Web | 使用urllib和BeautifulSoup加载和解析HTML网页 | 包 |
Unstructured | 使用Unstructured加载和解析网页 | 包 |
RecursiveURL | 从根URL递归抓取所有子链接 | 包 |
Sitemap | 抓取给定站点地图上的所有页面 | 包 |
Firecrawl | 可以本地部署的API服务,托管版本提供免费额度。 | API |
PDF文件
以下文档加载器允许您加载PDF文档。
请参阅本指南作为起点:如何:加载PDF文件。
文档加载器 | 描述 | 包/API |
---|---|---|
PyPDF | 使用 `pypdf` 加载和解析 PDF 文件 | 包 |
Unstructured | 使用Unstructured的开源库来加载PDF文件 | 包 |
Amazon Textract | 使用AWS API加载PDF | API |
MathPix | 使用MathPix加载PDF | 包 |
PDFPlumber | 使用PDFPlumber加载PDF文件 | 包 |
PyPDFDirectry | 加载包含PDF文件的目录 | 包 |
PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
PDFMiner | 使用PDFMiner加载PDF文件 | 包 |
云服务提供商
以下文档加载器允许您从您喜欢的云提供商加载文档。
文档加载器 | 描述 | 合作伙伴包 | API参考 |
---|---|---|---|
AWS S3 Directory | 从AWS S3目录加载文档 | ❌ | S3DirectoryLoader |
AWS S3 File | 从AWS S3文件加载文档 | ❌ | S3FileLoader |
Azure AI Data | 从Azure AI服务加载文档 | ❌ | AzureAIDataLoader |
Azure Blob Storage Container | 从Azure Blob Storage容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
Azure Blob Storage File | 从Azure Blob Storage文件加载文档 | ❌ | AzureBlobStorageFileLoader |
Dropbox | 从Dropbox加载文档 | ❌ | DropboxLoader |
Google Cloud Storage Directory | 从GCS存储桶加载文档 | ✅ | GCSDirectoryLoader |
Google Cloud Storage File | 从GCS文件对象加载文档 | ✅ | GCSFileLoader |
Google Drive | 从Google Drive加载文档(仅限Google Docs) | ✅ | GoogleDriveLoader |
Huawei OBS Directory | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
Huawei OBS File | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
Microsoft SharePoint | 从Microsoft SharePoint加载文档 | ❌ | SharePointLoader |
Tencent COS Directory | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
Tencent COS File | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
文档加载器 | API参考 |
---|---|
TwitterTweetLoader | |
RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
文档加载器 | API参考 |
---|---|
Telegram | TelegramChatFileLoader |
WhatsAppChatLoader | |
Discord | DiscordChatLoader |
Facebook 聊天 | FacebookChatLoader |
Mastodon | MastodonTootsLoader |
生产力工具
以下文档加载器允许您从常用的生产力工具中加载数据。
文档加载器 | API参考 |
---|---|
Figma | FigmaFileLoader |
Notion | NotionDirectoryLoader |
Slack | SlackDirectoryLoader |
Quip | QuipLoader |
Trello | TrelloLoader |
Roam | RoamLoader |
GitHub | GithubFileLoader |
常见文件类型
以下文档加载器允许您从常见的数据格式加载数据。
文档加载器 | 数据类型 |
---|---|
CSVLoader | CSV 文件 |
DirectoryLoader | 给定目录中的所有文件 |
Unstructured | 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
JSONLoader | JSON 文件 |
BSHTMLLoader | HTML 文件 |
所有文档加载器
名称 | 描述 |
---|---|
acreom | acreom 是一个面向开发者的知识库,任务运行在本地 mark... |
AirbyteLoader | Airbyte 是一个用于从API、数据库等来源进行ELT管道数据集成... |
Airtable | * 在这里获取您的API密钥。 |
Alibaba Cloud MaxCompute | 阿里云MaxCompute(之前称为ODPS)是一个通用的... |
Amazon Textract | Amazon Textract 是一种机器学习(ML)服务,能够自动... |
Apify Dataset | Apify Dataset 是一个可扩展的仅追加存储,具有顺序访问... |
ArcGIS | 本笔记本演示了如何使用 langchaincommunity.document... |
ArxivLoader | arXiv 是一个开放获取的存档,包含200万篇学术文章... |
AssemblyAI Audio Transcripts | AssemblyAIAudioTranscriptLoader 允许转录音频文件 ... |
AstraDB | DataStax Astra DB 是一个基于 Ca... 构建的无服务器向量数据库 |
Async Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个库... |
AsyncHtml | AsyncHtmlLoader 从一组URL中并发加载原始HTML。 |
Athena | Amazon Athena 是一个无服务器、交互式分析服务 |
AWS S3 Directory | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务 |
AWS S3 File | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务... |
AZLyrics | AZLyrics 是一个大型、合法、每天都在增长的歌词集合。 |
Azure AI Data | Azure AI Studio 提供了将数据资产上传到云的能力... |
Azure Blob Storage Container | Azure Blob Storage 是微软为云提供的对象存储解决方案... |
Azure Blob Storage File | Azure Files 提供完全托管的云文件共享,这些共享是... |
Azure AI Document Intelligence | Azure AI 文档智能(以前称为 Azure 表单识别... |
BibTeX | BibTeX 是一种文件格式和参考文献管理系统,常用于... |
BiliBili | Bilibili是中国最受欢迎的长视频网站之一。 |
Blackboard | Blackboard Learn(之前称为Blackboard学习管理系统... |
Blockchain | 概述 |
Box | langchain-box 包提供了两种方法来索引您的文件... |
Brave Search | Brave Search 是由 Brave Software 开发的搜索引擎。 |
Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和监控... |
Browserless | Browserless 是一项允许您运行无头 Chrome 实例的服务... |
BSHTMLLoader | 本笔记本提供了快速入门Beau的概述... |
Cassandra | Cassandra 是一个 NoSQL,面向行的,高度可扩展且高度可用的... |
ChatGPT Data | ChatGPT 是由 OpenAI 开发的人工智能(AI)聊天机器人... |
College Confidential | College Confidential 提供了超过3800所学院和大学的信息... |
Concurrent Loader | 工作方式类似于GenericLoader,但适用于那些选择并发操作的用户... |
Confluence | Confluence 是一个维基协作平台,用于保存和组织 ... |
CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版。注释是... |
Copy Paste | 本笔记本介绍了如何从您的内容加载文档对象... |
Couchbase | Couchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,它... |
CSV | 逗号分隔值(CSV)文件是一种使用...的分隔文本文件 |
Cube Semantic Layer | 本笔记本演示了检索Cube数据模型的过程... |
Datadog Logs | Datadog 是一个用于云规模应用程序的监控和分析平台... |
Dedoc | 此示例演示了Dedoc与LangCha结合的使用... |
Diffbot | Diffbot 是一套基于机器学习的产品,使得结构化... |
Discord | Discord 是一个 VoIP 和即时通讯社交平台。用户可以... |
Docugami | 本笔记本介绍了如何从Docugami加载文档。它提供了... |
Docusaurus | Docusaurus 是一个静态网站生成器,它提供了开箱即用的功能... |
Dropbox | Dropbox 是一个文件托管服务,它将所有传统的东西集中在一起... |
DuckDB | DuckDB 是一个进程内的 SQL OLAP 数据库管理系统。 |
本笔记本展示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m... | |
EPub | EPUB 是一种使用 ".epub" 文件扩展名的电子书文件格式。T... |
Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和分析... |
EverNote | EverNote 用于归档和创建包含照片的笔记... |
example_data | |
Facebook Chat | Messenger) 是一个美国专有的即时通讯应用程序和平台... |
Fauna | Fauna 是一个文档数据库。 |
Figma | Figma 是一个用于界面设计的协作式网页应用程序。 |
FireCrawl | FireCrawl 爬取并将任何网站转换为适合LLM的数据。它爬取... |
Geopandas | Geopandas 是一个开源项目,旨在简化地理空间数据的处理... |
Git | Git 是一个分布式版本控制系统,用于跟踪更改... |
GitBook | GitBook 是一个现代的文档平台,团队可以在其中记录电子文档... |
GitHub | 这个笔记本展示了如何加载问题和拉取请求(PRs)... |
Glue Catalog | AWS Glue 数据目录是一个集中式的元数据存储库,它... |
Google AlloyDB for PostgreSQL | AlloyDB 是一个完全托管的关系数据库服务,提供高... |
Google BigQuery | Google BigQuery 是一个无服务器且具有成本效益的企业数据仓库... |
Google Bigtable | Bigtable 是一个键值和宽列存储,非常适合快速访问... |
Google Cloud SQL for SQL server | Cloud SQL 是一个完全托管的关系数据库服务,提供 ... |
Google Cloud SQL for MySQL | Cloud SQL 是一个完全托管的关系型数据库服务,提供 ... |
Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一项完全托管的数据库服务,帮助... |
Google Cloud Storage Directory | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
Google Cloud Storage File | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
Google Firestore in Datastore Mode | Firestore in Datastore Mode 是一个为自动扩展而构建的 NoSQL 文档数据库... |
Google Drive | Google Drive 是由Google开发的文件存储和同步服务... |
Google El Carro for Oracle Workloads | Google El Carro Oracle 操作符 |
Google Firestore (Native Mode) | Firestore 是一个无服务器的面向文档的数据库,可以扩展到... |
Google Memorystore for Redis | Google Memorystore for Redis 是一项完全托管的服务,提供强大的... |
Google Spanner | Spanner 是一个高度可扩展的数据库,结合了无限的可扩展性... |
Google Speech-to-Text Audio Transcripts | SpeechToTextLoader 允许使用 Google 转录音频文件... |
Grobid | GROBID 是一个用于提取、解析和重...的机器学习库 |
Gutenberg | 古腾堡项目是一个免费的电子书在线图书馆。 |
Hacker News | Hacker News(有时缩写为HN)是一个社交新闻网站... |
Huawei OBS Directory | 以下代码演示了如何从华为OBS加载对象... |
Huawei OBS File | 以下代码演示了如何从华为加载对象... |
HuggingFace dataset | Hugging Face Hub 拥有超过 5,000 个数据集,涵盖 100 多种语言... |
iFixit | iFixit 是网络上最大的开放维修社区。该网站包含... |
Images | 这涵盖了如何将图像加载到我们可以使用的文档格式中... |
Image captions | 默认情况下,加载器使用预训练的Salesforce BLIP图像... |
IMSDb | IMSDb 是互联网电影剧本数据库。 |
Iugu | Iugu 是一家巴西的服务和软件即服务(SaaS)公司... |
Joplin | Joplin 是一个开源的笔记应用程序。捕捉你的想法和... |
JSONLoader | 本笔记本提供了快速入门JSON的概述... |
Jupyter Notebook | Jupyter Notebook(前身为IPython Notebook)是一个基于网络的交互式... |
Kinetica | 本笔记本介绍了如何从Kinetica加载文档 |
lakeFS | lakeFS 提供了数据湖的可扩展版本控制,并使用... |
LangSmith | 本笔记本提供了快速入门指南... |
LarkSuite (FeiShu) | LarkSuite 是由字节跳动开发的企业协作平台... |
LLM Sherpa | 本笔记本介绍了如何使用LLM Sherpa加载多种类型的文件... |
Mastodon | Mastodon 是一个联合社交媒体和社交网络服务。 |
MathPixPDFLoader | 灵感来源于Daniel Gross的代码片段//gist.github.com/danielgross/... |
MediaWiki Dump | MediaWiki XML 转储包含维基的内容(带有所有修订历史的维基页面...) |
Merge Documents Loader | 合并从一组指定的数据加载器返回的文档。 |
mhtml | MHTML 是一种既用于电子邮件也用于存档网页的格式。MH... |
Microsoft Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th... |
Microsoft OneDrive | Microsoft OneDrive(前身为SkyDrive)是一个文件托管服务... |
Microsoft OneNote | 本笔记本介绍了如何从OneNote加载文档。 |
Microsoft PowerPoint | Microsoft PowerPoint 是微软公司的一个演示文稿程序。 |
Microsoft SharePoint | Microsoft SharePoint 是一个基于网站的协作系统,使用... |
Microsoft Word | Microsoft Word 是由微软开发的文字处理软件。 |
Near Blockchain | 概述 |
Modern Treasury | Modern Treasury 简化了复杂的支付操作。它是一个统一的... |
MongoDB | MongoDB 是一个 NoSQL,面向文档的数据库,支持类似 JSON 的... |
Needle Document Loader | Needle 使得创建您的 RAG 管道变得轻松,只需最少的努力。 |
News URL | 这涵盖了如何从URL列表中加载HTML新闻文章到... |
Notion DB 2/2 | Notion 是一个支持修改后的 Markdown 的协作平台... |
Nuclia | Nuclia 自动从任何内部来源索引您的非结构化数据... |
Obsidian | Obsidian 是一个强大且可扩展的知识库 |
Open Document Format (ODT) | 办公应用程序的开放文档格式(ODF),也称为... |
Open City Data | Socrata 提供了一个用于城市开放数据的 API。 |
Oracle Autonomous Database | Oracle 自治数据库是一种使用机器学习的云数据库... |
Oracle AI Vector Search: 文档处理 | Oracle AI Vector Search 专为人工智能(AI)设计... |
Org-mode | Org Mode 文档是一种文档编辑、格式化和组织工具... |
Pandas DataFrame | 本笔记本介绍了如何从pandas DataFrame加载数据。 |
parsers | |
PDFMiner | 概述 |
PDFPlumber | 与PyMuPDF类似,输出的文档包含有关...的详细元数据 |
Pebblo Safe DocumentLoader | Pebblo 使开发人员能够安全地加载数据并推广他们的 Gen A... |
Polars DataFrame | 本笔记本介绍了如何从Polars DataFrame加载数据。 |
Psychic | 本笔记本介绍了如何从Psychic加载文档。详情请参阅... |
PubMed | PubMed® 由美国国家生物技术信息中心提供,国家... |
PyMuPDF | PyMuPDF 针对速度进行了优化,并包含有关...的详细元数据 |
PyPDFDirectoryLoader | 此加载器从特定目录加载所有PDF文件。 |
PyPDFium2Loader | 本笔记本提供了快速入门PyPDFium2的概述... |
PyPDFLoader | 本笔记本提供了快速入门PyPDF的概述... |
PySpark | 本笔记本介绍了如何从PySpark DataFrame加载数据。 |
Quip | Quip 是一款适用于移动和网络的协作生产力软件套件... |
ReadTheDocs Documentation | Read the Docs 是一个开源的免费软件文档托管平台... |
Recursive URL | RecursiveUrlLoader 允许您递归地抓取所有子链接... |
Reddit 是一个美国社交新闻聚合、内容评分和讨论网站... | |
Roam | ROAM 是一个用于网络化思维的笔记工具,旨在创建 ... |
Rockset | Rockset 是一个实时分析数据库,支持对大规模数据进行查询... |
rspace | 本笔记本展示了如何使用RSpace文档加载器导入r... |
RSS Feeds | 这涵盖了如何从RSS订阅源URL列表中加载HTML新闻文章... |
RST | reStructured Text (RST) 文件是一种用于文本数据的文件格式... |
scrapfly | ScrapFly |
ScrapingAnt | 概述 |
Sitemap | 继承自WebBaseLoader,SitemapLoader从...加载站点地图 |
Slack | Slack 是一个即时通讯程序。 |
Snowflake | 本笔记本介绍了如何从Snowflake加载文档 |
Source Code | 本笔记本介绍了如何使用特殊API加载源代码文件... |
Spider | Spider 是最快且最经济实惠的爬虫和抓取工具,它... |
Spreedly | Spreedly 是一项服务,允许您安全地存储信用卡... |
Stripe | Stripe 是一家爱尔兰-美国的金融服务和软件即服务公司... |
Subtitle | SubRip 文件格式在 Matroska 多媒体容器中有所描述... |
SurrealDB | SurrealDB 是一个为现代应用设计的端到端云原生数据库... |
Telegram | Telegram Messenger 是一个全球可访问的免费增值、跨平台,... |
Tencent COS Directory | 腾讯云对象存储(COS)是一种分布式 |
Tencent COS File | 腾讯云对象存储(COS)是一种分布式 |
TensorFlow Datasets | TensorFlow Datasets 是一个现成的数据集集合,与 Te... |
TiDB | TiDB Cloud,是一个全面的数据库即服务(DBaaS)解决方案... |
2Markdown | 2markdown 服务将网站内容转换为结构化的 markdown... |
TOML | TOML 是一种用于配置文件的文件格式。它旨在易于阅读和编写... |
Trello | Trello 是一个基于网络的项目管理和协作工具,它... |
TSV | 一个制表符分隔值(TSV)文件是一种简单的、基于文本的文件格式... |
Twitter 是一个在线社交媒体和社交网络服务。 | |
Unstructured | 本笔记本介绍了如何使用Unstructured文档加载器来加载... |
UnstructuredMarkdownLoader | 本笔记本提供了快速入门UnstructuredMarkdownLoader的概述... |
UnstructuredPDFLoader | 概述 |
Upstage | 本笔记本介绍了如何开始使用UpstageDocumentParseLoad... |
URL | 此示例涵盖了如何从URL列表中加载HTML文档... |
Vsdx | 一个Visio文件(扩展名为.vsdx)与Microsoft Visi相关联... |
Weather | OpenWeatherMap 是一个开源的气象服务提供商 |
WebBaseLoader | 这涵盖了如何使用WebBaseLoader从HTML网页加载所有文本... |
WhatsApp Chat | WhatsApp(也称为WhatsApp Messenger)是一款免费的跨平台... |
Wikipedia | 维基百科是一个多语言的免费在线百科全书,由志愿者编写和维护... |
UnstructuredXMLLoader | 本笔记本提供了快速入门UnstructuredXMLLoader的概述... |
Xorbits Pandas DataFrame | 本笔记本介绍了如何从xorbits.pandas DataFrame加载数据... |
YouTube audio | 在YouTube视频上构建聊天或问答应用程序是一个高度... |
YouTube transcripts | YouTube 是一个在线视频分享和社交媒体平台... |
YoutubeLoaderDL | 利用yt-dlp库的Youtube加载器。 |
Yuque | Yuque 是一个专业的基于云的知识库,用于团队协作... |
ZeroxPDFLoader | 概述 |