Skip to main content
Open on GitHub

文档加载器

文档加载器将数据加载到标准的LangChain文档格式中。

每个DocumentLoader都有其特定的参数,但它们都可以通过.load方法以相同的方式调用。 一个示例用例如下:

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API Reference:CSVLoader

网页

以下文档加载器允许您加载网页。

请参阅本指南作为起点:如何:加载网页

文档加载器描述包/API
Web使用urllib和BeautifulSoup加载和解析HTML网页
Unstructured使用Unstructured加载和解析网页
RecursiveURL从根URL递归抓取所有子链接
Sitemap抓取给定站点地图上的所有页面
Firecrawl可以本地部署的API服务,托管版本提供免费额度。API

PDF文件

以下文档加载器允许您加载PDF文档。

请参阅本指南作为起点:如何:加载PDF文件

文档加载器描述包/API
PyPDF使用 `pypdf` 加载和解析 PDF 文件
Unstructured使用Unstructured的开源库来加载PDF文件
Amazon Textract使用AWS API加载PDFAPI
MathPix使用MathPix加载PDF
PDFPlumber使用PDFPlumber加载PDF文件
PyPDFDirectry加载包含PDF文件的目录
PyPDFium2使用 PyPDFium2 加载 PDF 文件
PyMuPDF使用 PyMuPDF 加载 PDF 文件
PDFMiner使用PDFMiner加载PDF文件

云服务提供商

以下文档加载器允许您从您喜欢的云提供商加载文档。

文档加载器描述合作伙伴包API参考
AWS S3 Directory从AWS S3目录加载文档S3DirectoryLoader
AWS S3 File从AWS S3文件加载文档S3FileLoader
Azure AI Data从Azure AI服务加载文档AzureAIDataLoader
Azure Blob Storage Container从Azure Blob Storage容器加载文档AzureBlobStorageContainerLoader
Azure Blob Storage File从Azure Blob Storage文件加载文档AzureBlobStorageFileLoader
Dropbox从Dropbox加载文档DropboxLoader
Google Cloud Storage Directory从GCS存储桶加载文档GCSDirectoryLoader
Google Cloud Storage File从GCS文件对象加载文档GCSFileLoader
Google Drive从Google Drive加载文档(仅限Google Docs)GoogleDriveLoader
Huawei OBS Directory从华为对象存储服务目录加载文档OBSDirectoryLoader
Huawei OBS File从华为对象存储服务文件加载文档OBSFileLoader
Microsoft OneDrive从 Microsoft OneDrive 加载文档OneDriveLoader
Microsoft SharePoint从Microsoft SharePoint加载文档SharePointLoader
Tencent COS Directory从腾讯云对象存储目录加载文档TencentCOSDirectoryLoader
Tencent COS File从腾讯云对象存储文件加载文档TencentCOSFileLoader

社交平台

以下文档加载器允许您从不同的社交媒体平台加载文档。

文档加载器API参考
TwitterTwitterTweetLoader
RedditRedditPostsLoader

消息服务

以下文档加载器允许您从不同的消息平台加载数据。

文档加载器API参考
TelegramTelegramChatFileLoader
WhatsAppWhatsAppChatLoader
DiscordDiscordChatLoader
Facebook 聊天FacebookChatLoader
MastodonMastodonTootsLoader

生产力工具

以下文档加载器允许您从常用的生产力工具中加载数据。

文档加载器API参考
FigmaFigmaFileLoader
NotionNotionDirectoryLoader
SlackSlackDirectoryLoader
QuipQuipLoader
TrelloTrelloLoader
RoamRoamLoader
GitHubGithubFileLoader

常见文件类型

以下文档加载器允许您从常见的数据格式加载数据。

文档加载器数据类型
CSVLoaderCSV 文件
DirectoryLoader给定目录中的所有文件
Unstructured多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types)
JSONLoaderJSON 文件
BSHTMLLoaderHTML 文件

所有文档加载器

名称描述
acreomacreom 是一个面向开发者的知识库,任务运行在本地 mark...
AirbyteLoaderAirbyte 是一个用于从API、数据库等来源进行ELT管道数据集成...
Airtable* 在这里获取您的API密钥。
Alibaba Cloud MaxCompute阿里云MaxCompute(之前称为ODPS)是一个通用的...
Amazon TextractAmazon Textract 是一种机器学习(ML)服务,能够自动...
Apify DatasetApify Dataset 是一个可扩展的仅追加存储,具有顺序访问...
ArcGIS本笔记本演示了如何使用 langchaincommunity.document...
ArxivLoaderarXiv 是一个开放获取的存档,包含200万篇学术文章...
AssemblyAI Audio TranscriptsAssemblyAIAudioTranscriptLoader 允许转录音频文件 ...
AstraDBDataStax Astra DB 是一个基于 Ca... 构建的无服务器向量数据库
Async ChromiumChromium 是 Playwright 支持的浏览器之一,Playwright 是一个库...
AsyncHtmlAsyncHtmlLoader 从一组URL中并发加载原始HTML。
AthenaAmazon Athena 是一个无服务器、交互式分析服务
AWS S3 DirectoryAmazon Simple Storage Service (Amazon S3) 是一种对象存储服务
AWS S3 FileAmazon Simple Storage Service (Amazon S3) 是一种对象存储服务...
AZLyricsAZLyrics 是一个大型、合法、每天都在增长的歌词集合。
Azure AI DataAzure AI Studio 提供了将数据资产上传到云的能力...
Azure Blob Storage ContainerAzure Blob Storage 是微软为云提供的对象存储解决方案...
Azure Blob Storage FileAzure Files 提供完全托管的云文件共享,这些共享是...
Azure AI Document IntelligenceAzure AI 文档智能(以前称为 Azure 表单识别...
BibTeXBibTeX 是一种文件格式和参考文献管理系统,常用于...
BiliBiliBilibili是中国最受欢迎的长视频网站之一。
BlackboardBlackboard Learn(之前称为Blackboard学习管理系统...
Blockchain概述
Boxlangchain-box 包提供了两种方法来索引您的文件...
Brave SearchBrave Search 是由 Brave Software 开发的搜索引擎。
BrowserbaseBrowserbase 是一个开发者平台,用于可靠地运行、管理和监控...
BrowserlessBrowserless 是一项允许您运行无头 Chrome 实例的服务...
BSHTMLLoader本笔记本提供了快速入门Beau的概述...
CassandraCassandra 是一个 NoSQL,面向行的,高度可扩展且高度可用的...
ChatGPT DataChatGPT 是由 OpenAI 开发的人工智能(AI)聊天机器人...
College ConfidentialCollege Confidential 提供了超过3800所学院和大学的信息...
Concurrent Loader工作方式类似于GenericLoader,但适用于那些选择并发操作的用户...
ConfluenceConfluence 是一个维基协作平台,用于保存和组织 ...
CoNLL-UCoNLL-U 是 CoNLL-X 格式的修订版。注释是...
Copy Paste本笔记本介绍了如何从您的内容加载文档对象...
CouchbaseCouchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,它...
CSV逗号分隔值(CSV)文件是一种使用...的分隔文本文件
Cube Semantic Layer本笔记本演示了检索Cube数据模型的过程...
Datadog LogsDatadog 是一个用于云规模应用程序的监控和分析平台...
Dedoc此示例演示了Dedoc与LangCha结合的使用...
DiffbotDiffbot 是一套基于机器学习的产品,使得结构化...
DiscordDiscord 是一个 VoIP 和即时通讯社交平台。用户可以...
Docugami本笔记本介绍了如何从Docugami加载文档。它提供了...
DocusaurusDocusaurus 是一个静态网站生成器,它提供了开箱即用的功能...
DropboxDropbox 是一个文件托管服务,它将所有传统的东西集中在一起...
DuckDBDuckDB 是一个进程内的 SQL OLAP 数据库管理系统。
Email本笔记本展示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m...
EPubEPUB 是一种使用 ".epub" 文件扩展名的电子书文件格式。T...
EtherscanEtherscan 是领先的区块链浏览器、搜索、API 和分析...
EverNoteEverNote 用于归档和创建包含照片的笔记...
example_data
Facebook ChatMessenger) 是一个美国专有的即时通讯应用程序和平台...
FaunaFauna 是一个文档数据库。
FigmaFigma 是一个用于界面设计的协作式网页应用程序。
FireCrawlFireCrawl 爬取并将任何网站转换为适合LLM的数据。它爬取...
GeopandasGeopandas 是一个开源项目,旨在简化地理空间数据的处理...
GitGit 是一个分布式版本控制系统,用于跟踪更改...
GitBookGitBook 是一个现代的文档平台,团队可以在其中记录电子文档...
GitHub这个笔记本展示了如何加载问题和拉取请求(PRs)...
Glue CatalogAWS Glue 数据目录是一个集中式的元数据存储库,它...
Google AlloyDB for PostgreSQLAlloyDB 是一个完全托管的关系数据库服务,提供高...
Google BigQueryGoogle BigQuery 是一个无服务器且具有成本效益的企业数据仓库...
Google BigtableBigtable 是一个键值和宽列存储,非常适合快速访问...
Google Cloud SQL for SQL serverCloud SQL 是一个完全托管的关系数据库服务,提供 ...
Google Cloud SQL for MySQLCloud SQL 是一个完全托管的关系型数据库服务,提供 ...
Google Cloud SQL for PostgreSQLCloud SQL for PostgreSQL 是一项完全托管的数据库服务,帮助...
Google Cloud Storage DirectoryGoogle Cloud Storage 是一项用于存储非结构化数据的托管服务...
Google Cloud Storage FileGoogle Cloud Storage 是一项用于存储非结构化数据的托管服务...
Google Firestore in Datastore ModeFirestore in Datastore Mode 是一个为自动扩展而构建的 NoSQL 文档数据库...
Google DriveGoogle Drive 是由Google开发的文件存储和同步服务...
Google El Carro for Oracle WorkloadsGoogle El Carro Oracle 操作符
Google Firestore (Native Mode)Firestore 是一个无服务器的面向文档的数据库,可以扩展到...
Google Memorystore for RedisGoogle Memorystore for Redis 是一项完全托管的服务,提供强大的...
Google SpannerSpanner 是一个高度可扩展的数据库,结合了无限的可扩展性...
Google Speech-to-Text Audio TranscriptsSpeechToTextLoader 允许使用 Google 转录音频文件...
GrobidGROBID 是一个用于提取、解析和重...的机器学习库
Gutenberg古腾堡项目是一个免费的电子书在线图书馆。
Hacker NewsHacker News(有时缩写为HN)是一个社交新闻网站...
Huawei OBS Directory以下代码演示了如何从华为OBS加载对象...
Huawei OBS File以下代码演示了如何从华为加载对象...
HuggingFace datasetHugging Face Hub 拥有超过 5,000 个数据集,涵盖 100 多种语言...
iFixitiFixit 是网络上最大的开放维修社区。该网站包含...
Images这涵盖了如何将图像加载到我们可以使用的文档格式中...
Image captions默认情况下,加载器使用预训练的Salesforce BLIP图像...
IMSDbIMSDb 是互联网电影剧本数据库。
IuguIugu 是一家巴西的服务和软件即服务(SaaS)公司...
JoplinJoplin 是一个开源的笔记应用程序。捕捉你的想法和...
JSONLoader本笔记本提供了快速入门JSON的概述...
Jupyter NotebookJupyter Notebook(前身为IPython Notebook)是一个基于网络的交互式...
Kinetica本笔记本介绍了如何从Kinetica加载文档
lakeFSlakeFS 提供了数据湖的可扩展版本控制,并使用...
LangSmith本笔记本提供了快速入门指南...
LarkSuite (FeiShu)LarkSuite 是由字节跳动开发的企业协作平台...
LLM Sherpa本笔记本介绍了如何使用LLM Sherpa加载多种类型的文件...
MastodonMastodon 是一个联合社交媒体和社交网络服务。
MathPixPDFLoader灵感来源于Daniel Gross的代码片段//gist.github.com/danielgross/...
MediaWiki DumpMediaWiki XML 转储包含维基的内容(带有所有修订历史的维基页面...)
Merge Documents Loader合并从一组指定的数据加载器返回的文档。
mhtmlMHTML 是一种既用于电子邮件也用于存档网页的格式。MH...
Microsoft ExcelUnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th...
Microsoft OneDriveMicrosoft OneDrive(前身为SkyDrive)是一个文件托管服务...
Microsoft OneNote本笔记本介绍了如何从OneNote加载文档。
Microsoft PowerPointMicrosoft PowerPoint 是微软公司的一个演示文稿程序。
Microsoft SharePointMicrosoft SharePoint 是一个基于网站的协作系统,使用...
Microsoft WordMicrosoft Word 是由微软开发的文字处理软件。
Near Blockchain概述
Modern TreasuryModern Treasury 简化了复杂的支付操作。它是一个统一的...
MongoDBMongoDB 是一个 NoSQL,面向文档的数据库,支持类似 JSON 的...
Needle Document LoaderNeedle 使得创建您的 RAG 管道变得轻松,只需最少的努力。
News URL这涵盖了如何从URL列表中加载HTML新闻文章到...
Notion DB 2/2Notion 是一个支持修改后的 Markdown 的协作平台...
NucliaNuclia 自动从任何内部来源索引您的非结构化数据...
ObsidianObsidian 是一个强大且可扩展的知识库
Open Document Format (ODT)办公应用程序的开放文档格式(ODF),也称为...
Open City DataSocrata 提供了一个用于城市开放数据的 API。
Oracle Autonomous DatabaseOracle 自治数据库是一种使用机器学习的云数据库...
Oracle AI Vector Search: 文档处理Oracle AI Vector Search 专为人工智能(AI)设计...
Org-modeOrg Mode 文档是一种文档编辑、格式化和组织工具...
Pandas DataFrame本笔记本介绍了如何从pandas DataFrame加载数据。
parsers
PDFMiner概述
PDFPlumber与PyMuPDF类似,输出的文档包含有关...的详细元数据
Pebblo Safe DocumentLoaderPebblo 使开发人员能够安全地加载数据并推广他们的 Gen A...
Polars DataFrame本笔记本介绍了如何从Polars DataFrame加载数据。
Psychic本笔记本介绍了如何从Psychic加载文档。详情请参阅...
PubMedPubMed® 由美国国家生物技术信息中心提供,国家...
PyMuPDFPyMuPDF 针对速度进行了优化,并包含有关...的详细元数据
PyPDFDirectoryLoader此加载器从特定目录加载所有PDF文件。
PyPDFium2Loader本笔记本提供了快速入门PyPDFium2的概述...
PyPDFLoader本笔记本提供了快速入门PyPDF的概述...
PySpark本笔记本介绍了如何从PySpark DataFrame加载数据。
QuipQuip 是一款适用于移动和网络的协作生产力软件套件...
ReadTheDocs DocumentationRead the Docs 是一个开源的免费软件文档托管平台...
Recursive URLRecursiveUrlLoader 允许您递归地抓取所有子链接...
RedditReddit 是一个美国社交新闻聚合、内容评分和讨论网站...
RoamROAM 是一个用于网络化思维的笔记工具,旨在创建 ...
RocksetRockset 是一个实时分析数据库,支持对大规模数据进行查询...
rspace本笔记本展示了如何使用RSpace文档加载器导入r...
RSS Feeds这涵盖了如何从RSS订阅源URL列表中加载HTML新闻文章...
RSTreStructured Text (RST) 文件是一种用于文本数据的文件格式...
scrapflyScrapFly
ScrapingAnt概述
Sitemap继承自WebBaseLoader,SitemapLoader从...加载站点地图
SlackSlack 是一个即时通讯程序。
Snowflake本笔记本介绍了如何从Snowflake加载文档
Source Code本笔记本介绍了如何使用特殊API加载源代码文件...
SpiderSpider 是最快且最经济实惠的爬虫和抓取工具,它...
SpreedlySpreedly 是一项服务,允许您安全地存储信用卡...
StripeStripe 是一家爱尔兰-美国的金融服务和软件即服务公司...
SubtitleSubRip 文件格式在 Matroska 多媒体容器中有所描述...
SurrealDBSurrealDB 是一个为现代应用设计的端到端云原生数据库...
TelegramTelegram Messenger 是一个全球可访问的免费增值、跨平台,...
Tencent COS Directory腾讯云对象存储(COS)是一种分布式
Tencent COS File腾讯云对象存储(COS)是一种分布式
TensorFlow DatasetsTensorFlow Datasets 是一个现成的数据集集合,与 Te...
TiDBTiDB Cloud,是一个全面的数据库即服务(DBaaS)解决方案...
2Markdown2markdown 服务将网站内容转换为结构化的 markdown...
TOMLTOML 是一种用于配置文件的文件格式。它旨在易于阅读和编写...
TrelloTrello 是一个基于网络的项目管理和协作工具,它...
TSV一个制表符分隔值(TSV)文件是一种简单的、基于文本的文件格式...
TwitterTwitter 是一个在线社交媒体和社交网络服务。
Unstructured本笔记本介绍了如何使用Unstructured文档加载器来加载...
UnstructuredMarkdownLoader本笔记本提供了快速入门UnstructuredMarkdownLoader的概述...
UnstructuredPDFLoader概述
Upstage本笔记本介绍了如何开始使用UpstageDocumentParseLoad...
URL此示例涵盖了如何从URL列表中加载HTML文档...
Vsdx一个Visio文件(扩展名为.vsdx)与Microsoft Visi相关联...
WeatherOpenWeatherMap 是一个开源的气象服务提供商
WebBaseLoader这涵盖了如何使用WebBaseLoader从HTML网页加载所有文本...
WhatsApp ChatWhatsApp(也称为WhatsApp Messenger)是一款免费的跨平台...
Wikipedia维基百科是一个多语言的免费在线百科全书,由志愿者编写和维护...
UnstructuredXMLLoader本笔记本提供了快速入门UnstructuredXMLLoader的概述...
Xorbits Pandas DataFrame本笔记本介绍了如何从xorbits.pandas DataFrame加载数据...
YouTube audio在YouTube视频上构建聊天或问答应用程序是一个高度...
YouTube transcriptsYouTube 是一个在线视频分享和社交媒体平台...
YoutubeLoaderDL利用yt-dlp库的Youtube加载器。
YuqueYuque 是一个专业的基于云的知识库,用于团队协作...
ZeroxPDFLoader概述

这个页面有帮助吗?