文档加载器
文档加载器将数据加载到标准的LangChain文档格式中。
每个DocumentLoader都有其特定的参数,但它们都可以通过.load方法以相同的方式调用。 一个示例用例如下:
from langchain_community.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(
... # <-- Integration specific parameters here
)
data = loader.load()
API Reference:CSVLoader
网页
以下文档加载器允许您加载网页。
请参阅本指南作为起点:如何:加载网页。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| Web | 使用urllib和BeautifulSoup加载和解析HTML网页 | 包 |
| Unstructured | 使用Unstructured加载和解析网页 | 包 |
| RecursiveURL | 从根URL递归抓取所有子链接 | 包 |
| Sitemap | 抓取给定站点地图上的所有页面 | 包 |
| Firecrawl | 可以本地部署的API服务,托管版本提供免费额度。 | API |
PDF文件
以下文档加载器允许您加载PDF文档。
请参阅本指南作为起点:如何:加载PDF文件。
| 文档加载器 | 描述 | 包/API |
|---|---|---|
| PyPDF | 使用 `pypdf` 加载和解析 PDF 文件 | 包 |
| Unstructured | 使用Unstructured的开源库来加载PDF文件 | 包 |
| Amazon Textract | 使用AWS API加载PDF | API |
| MathPix | 使用MathPix加载PDF | 包 |
| PDFPlumber | 使用PDFPlumber加载PDF文件 | 包 |
| PyPDFDirectry | 加载包含PDF文件的目录 | 包 |
| PyPDFium2 | 使用 PyPDFium2 加载 PDF 文件 | 包 |
| PyMuPDF | 使用 PyMuPDF 加载 PDF 文件 | 包 |
| PDFMiner | 使用PDFMiner加载PDF文件 | 包 |
云服务提供商
以下文档加载器允许您从您喜欢的云提供商加载文档。
| 文档加载器 | 描述 | 合作伙伴包 | API参考 |
|---|---|---|---|
| AWS S3 Directory | 从AWS S3目录加载文档 | ❌ | S3DirectoryLoader |
| AWS S3 File | 从AWS S3文件加载文档 | ❌ | S3FileLoader |
| Azure AI Data | 从Azure AI服务加载文档 | ❌ | AzureAIDataLoader |
| Azure Blob Storage Container | 从Azure Blob Storage容器加载文档 | ❌ | AzureBlobStorageContainerLoader |
| Azure Blob Storage File | 从Azure Blob Storage文件加载文档 | ❌ | AzureBlobStorageFileLoader |
| Dropbox | 从Dropbox加载文档 | ❌ | DropboxLoader |
| Google Cloud Storage Directory | 从GCS存储桶加载文档 | ✅ | GCSDirectoryLoader |
| Google Cloud Storage File | 从GCS文件对象加载文档 | ✅ | GCSFileLoader |
| Google Drive | 从Google Drive加载文档(仅限Google Docs) | ✅ | GoogleDriveLoader |
| Huawei OBS Directory | 从华为对象存储服务目录加载文档 | ❌ | OBSDirectoryLoader |
| Huawei OBS File | 从华为对象存储服务文件加载文档 | ❌ | OBSFileLoader |
| Microsoft OneDrive | 从 Microsoft OneDrive 加载文档 | ❌ | OneDriveLoader |
| Microsoft SharePoint | 从Microsoft SharePoint加载文档 | ❌ | SharePointLoader |
| Tencent COS Directory | 从腾讯云对象存储目录加载文档 | ❌ | TencentCOSDirectoryLoader |
| Tencent COS File | 从腾讯云对象存储文件加载文档 | ❌ | TencentCOSFileLoader |
社交平台
以下文档加载器允许您从不同的社交媒体平台加载文档。
| 文档加载器 | API参考 |
|---|---|
| TwitterTweetLoader | |
| RedditPostsLoader |
消息服务
以下文档加载器允许您从不同的消息平台加载数据。
| 文档加载器 | API参考 |
|---|---|
| Telegram | TelegramChatFileLoader |
| WhatsAppChatLoader | |
| Discord | DiscordChatLoader |
| Facebook 聊天 | FacebookChatLoader |
| Mastodon | MastodonTootsLoader |
生产力工具
以下文档加载器允许您从常用的生产力工具中加载数据。
| 文档加载器 | API参考 |
|---|---|
| Figma | FigmaFileLoader |
| Notion | NotionDirectoryLoader |
| Slack | SlackDirectoryLoader |
| Quip | QuipLoader |
| Trello | TrelloLoader |
| Roam | RoamLoader |
| GitHub | GithubFileLoader |
常见文件类型
以下文档加载器允许您从常见的数据格式加载数据。
| 文档加载器 | 数据类型 |
|---|---|
| CSVLoader | CSV 文件 |
| DirectoryLoader | 给定目录中的所有文件 |
| Unstructured | 多种文件类型(参见 https://docs.unstructured.io/platform/supported-file-types) |
| JSONLoader | JSON 文件 |
| BSHTMLLoader | HTML 文件 |
所有文档加载器
| 名称 | 描述 |
|---|---|
| acreom | acreom 是一个面向开发者的知识库,任务运行在本地 mark... |
| AirbyteLoader | Airbyte 是一个用于从API、数据库等来源进行ELT管道数据集成... |
| Airtable | * 在这里获取您的API密钥。 |
| Alibaba Cloud MaxCompute | 阿里云MaxCompute(之前称为ODPS)是一个通用的... |
| Amazon Textract | Amazon Textract 是一种机器学习(ML)服务,能够自动... |
| Apify Dataset | Apify Dataset 是一个可扩展的仅追加存储,具有顺序访问... |
| ArcGIS | 本笔记本演示了如何使用 langchaincommunity.document... |
| ArxivLoader | arXiv 是一个开放获取的存档,包含200万篇学术文章... |
| AssemblyAI Audio Transcripts | AssemblyAIAudioTranscriptLoader 允许转录音频文件 ... |
| AstraDB | DataStax Astra DB 是一个基于 Ca... 构建的无服务器向量数据库 |
| Async Chromium | Chromium 是 Playwright 支持的浏览器之一,Playwright 是一个库... |
| AsyncHtml | AsyncHtmlLoader 从一组URL中并发加载原始HTML。 |
| Athena | Amazon Athena 是一个无服务器、交互式分析服务 |
| AWS S3 Directory | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务 |
| AWS S3 File | Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务... |
| AZLyrics | AZLyrics 是一个大型、合法、每天都在增长的歌词集合。 |
| Azure AI Data | Azure AI Studio 提供了将数据资产上传到云的能力... |
| Azure Blob Storage Container | Azure Blob Storage 是微软为云提供的对象存储解决方案... |
| Azure Blob Storage File | Azure Files 提供完全托管的云文件共享,这些共享是... |
| Azure AI Document Intelligence | Azure AI 文档智能(以前称为 Azure 表单识别... |
| BibTeX | BibTeX 是一种文件格式和参考文献管理系统,常用于... |
| BiliBili | Bilibili是中国最受欢迎的长视频网站之一。 |
| Blackboard | Blackboard Learn(之前称为Blackboard学习管理系统... |
| Blockchain | 概述 |
| Box | langchain-box 包提供了两种方法来索引您的文件... |
| Brave Search | Brave Search 是由 Brave Software 开发的搜索引擎。 |
| Browserbase | Browserbase 是一个开发者平台,用于可靠地运行、管理和监控... |
| Browserless | Browserless 是一项允许您运行无头 Chrome 实例的服务... |
| BSHTMLLoader | 本笔记本提供了快速入门Beau的概述... |
| Cassandra | Cassandra 是一个 NoSQL,面向行的,高度可扩展且高度可用的... |
| ChatGPT Data | ChatGPT 是由 OpenAI 开发的人工智能(AI)聊天机器人... |
| College Confidential | College Confidential 提供了超过3800所学院和大学的信息... |
| Concurrent Loader | 工作方式类似于GenericLoader,但适用于那些选择并发操作的用户... |
| Confluence | Confluence 是一个维基协作平台,用于保存和组织 ... |
| CoNLL-U | CoNLL-U 是 CoNLL-X 格式的修订版。注释是... |
| Copy Paste | 本笔记本介绍了如何从您的内容加载文档对象... |
| Couchbase | Couchbase 是一个屡获殊荣的分布式 NoSQL 云数据库,它... |
| CSV | 逗号分隔值(CSV)文件是一种使用...的分隔文本文件 |
| Cube Semantic Layer | 本笔记本演示了检索Cube数据模型的过程... |
| Datadog Logs | Datadog 是一个用于云规模应用程序的监控和分析平台... |
| Dedoc | 此示例演示了Dedoc与LangCha结合的使用... |
| Diffbot | Diffbot 是一套基于机器学习的产品,使得结构化... |
| Discord | Discord 是一个 VoIP 和即时通讯社交平台。用户可以... |
| Docugami | 本笔记本介绍了如何从Docugami加载文档。它提供了... |
| Docusaurus | Docusaurus 是一个静态网站生成器,它提供了开箱即用的功能... |
| Dropbox | Dropbox 是一个文件托管服务,它将所有传统的东西集中在一起... |
| DuckDB | DuckDB 是一个进程内的 SQL OLAP 数据库管理系统。 |
| 本笔记本展示了如何加载电子邮件 (.eml) 或 Microsoft Outlook (.m... | |
| EPub | EPUB 是一种使用 ".epub" 文件扩展名的电子书文件格式。T... |
| Etherscan | Etherscan 是领先的区块链浏览器、搜索、API 和分析... |
| EverNote | EverNote 用于归档和创建包含照片的笔记... |
| example_data | |
| Facebook Chat | Messenger) 是一个美国专有的即时通讯应用程序和平台... |
| Fauna | Fauna 是一个文档数据库。 |
| Figma | Figma 是一个用于界面设计的协作式网页应用程序。 |
| FireCrawl | FireCrawl 爬取并将任何网站转换为适合LLM的数据。它爬取... |
| Geopandas | Geopandas 是一个开源项目,旨在简化地理空间数据的处理... |
| Git | Git 是一个分布式版本控制系统,用于跟踪更改... |
| GitBook | GitBook 是一个现代的文档平台,团队可以在其中记录电子文档... |
| GitHub | 这个笔记本展示了如何加载问题和拉取请求(PRs)... |
| Glue Catalog | AWS Glue 数据目录是一个集中式的元数据存储库,它... |
| Google AlloyDB for PostgreSQL | AlloyDB 是一个完全托管的关系数据库服务,提供高... |
| Google BigQuery | Google BigQuery 是一个无服务器且具有成本效益的企业数据仓库... |
| Google Bigtable | Bigtable 是一个键值和宽列存储,非常适合快速访问... |
| Google Cloud SQL for SQL server | Cloud SQL 是一个完全托管的关系数据库服务,提供 ... |
| Google Cloud SQL for MySQL | Cloud SQL 是一个完全托管的关系型数据库服务,提供 ... |
| Google Cloud SQL for PostgreSQL | Cloud SQL for PostgreSQL 是一项完全托管的数据库服务,帮助... |
| Google Cloud Storage Directory | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
| Google Cloud Storage File | Google Cloud Storage 是一项用于存储非结构化数据的托管服务... |
| Google Firestore in Datastore Mode | Firestore in Datastore Mode 是一个为自动扩展而构建的 NoSQL 文档数据库... |
| Google Drive | Google Drive 是由Google开发的文件存储和同步服务... |
| Google El Carro for Oracle Workloads | Google El Carro Oracle 操作符 |
| Google Firestore (Native Mode) | Firestore 是一个无服务器的面向文档的数据库,可以扩展到... |
| Google Memorystore for Redis | Google Memorystore for Redis 是一项完全托管的服务,提供强大的... |
| Google Spanner | Spanner 是一个高度可扩展的数据库,结合了无限的可扩展性... |
| Google Speech-to-Text Audio Transcripts | SpeechToTextLoader 允许使用 Google 转录音频文件... |
| Grobid | GROBID 是一个用于提取、解析和重...的机器学习库 |
| Gutenberg | 古腾堡项目是一个免费的电子书在线图书馆。 |
| Hacker News | Hacker News(有时缩写为HN)是一个社交新闻网站... |
| Huawei OBS Directory | 以下代码演示了如何从华为OBS加载对象... |
| Huawei OBS File | 以下代码演示了如何从华为加载对象... |
| HuggingFace dataset | Hugging Face Hub 拥有超过 5,000 个数据集,涵盖 100 多种语言... |
| iFixit | iFixit 是网络上最大的开放维修社区。该网站包含... |
| Images | 这涵盖了如何将图像加载到我们可以使用的文档格式中... |
| Image captions | 默认情况下,加载器使用预训练的Salesforce BLIP图像... |
| IMSDb | IMSDb 是互联网电影剧本数据库。 |
| Iugu | Iugu 是一家巴西的服务和软件即服务(SaaS)公司... |
| Joplin | Joplin 是一个开源的笔记应用程序。捕捉你的想法和... |
| JSONLoader | 本笔记本提供了快速入门JSON的概述... |
| Jupyter Notebook | Jupyter Notebook(前身为IPython Notebook)是一个基于网络的交互式... |
| Kinetica | 本笔记本介绍了如何从Kinetica加载文档 |
| lakeFS | lakeFS 提供了数据湖的可扩展版本控制,并使用... |
| LangSmith | 本笔记本提供了快速入门指南... |
| LarkSuite (FeiShu) | LarkSuite 是由字节跳动开发的企业协作平台... |
| LLM Sherpa | 本笔记本介绍了如何使用LLM Sherpa加载多种类型的文件... |
| Mastodon | Mastodon 是一个联合社交媒体和社交网络服务。 |
| MathPixPDFLoader | 灵感来源于Daniel Gross的代码片段//gist.github.com/danielgross/... |
| MediaWiki Dump | MediaWiki XML 转储包含维基的内容(带有所有修订历史的维基页面...) |
| Merge Documents Loader | 合并从一组指定的数据加载器返回的文档。 |
| mhtml | MHTML 是一种既用于电子邮件也用于存档网页的格式。MH... |
| Microsoft Excel | UnstructuredExcelLoader 用于加载 Microsoft Excel 文件。Th... |
| Microsoft OneDrive | Microsoft OneDrive(前身为SkyDrive)是一个文件托管服务... |
| Microsoft OneNote | 本笔记本介绍了如何从OneNote加载文档。 |
| Microsoft PowerPoint | Microsoft PowerPoint 是微软公司的一个演示文稿程序。 |
| Microsoft SharePoint | Microsoft SharePoint 是一个基于网站的协作系统,使用... |
| Microsoft Word | Microsoft Word 是由微软开发的文字处理软件。 |
| Near Blockchain | 概述 |
| Modern Treasury | Modern Treasury 简化了复杂的支付操作。它是一个统一的... |
| MongoDB | MongoDB 是一个 NoSQL,面向文档的数据库,支持类似 JSON 的... |
| Needle Document Loader | Needle 使得创建您的 RAG 管道变得轻松,只需最少的努力。 |
| News URL | 这涵盖了如何从URL列表中加载HTML新闻文章到... |
| Notion DB 2/2 | Notion 是一个支持修改后的 Markdown 的协作平台... |
| Nuclia | Nuclia 自动从任何内部来源索引您的非结构化数据... |
| Obsidian | Obsidian 是一个强大且可扩展的知识库 |
| Open Document Format (ODT) | 办公应用程序的开放文档格式(ODF),也称为... |
| Open City Data | Socrata 提供了一个用于城市开放数据的 API。 |
| Oracle Autonomous Database | Oracle 自治数据库是一种使用机器学习的云数据库... |
| Oracle AI Vector Search: 文档处理 | Oracle AI Vector Search 专为人工智能(AI)设计... |
| Org-mode | Org Mode 文档是一种文档编辑、格式化和组织工具... |
| Pandas DataFrame | 本笔记本介绍了如何从pandas DataFrame加载数据。 |
| parsers | |
| PDFMiner | 概述 |
| PDFPlumber | 与PyMuPDF类似,输出的文档包含有关...的详细元数据 |
| Pebblo Safe DocumentLoader | Pebblo 使开发人员能够安全地加载数据并推广他们的 Gen A... |
| Polars DataFrame | 本笔记本介绍了如何从Polars DataFrame加载数据。 |
| Psychic | 本笔记本介绍了如何从Psychic加载文档。详情请参阅... |
| PubMed | PubMed® 由美国国家生物技术信息中心提供,国家... |
| PyMuPDF | PyMuPDF 针对速度进行了优化,并包含有关...的详细元数据 |
| PyPDFDirectoryLoader | 此加载器从特定目录加载所有PDF文件。 |
| PyPDFium2Loader | 本笔记本提供了快速入门PyPDFium2的概述... |
| PyPDFLoader | 本笔记本提供了快速入门PyPDF的概述... |
| PySpark | 本笔记本介绍了如何从PySpark DataFrame加载数据。 |
| Quip | Quip 是一款适用于移动和网络的协作生产力软件套件... |
| ReadTheDocs Documentation | Read the Docs 是一个开源的免费软件文档托管平台... |
| Recursive URL | RecursiveUrlLoader 允许您递归地抓取所有子链接... |
| Reddit 是一个美国社交新闻聚合、内容评分和讨论网站... | |
| Roam | ROAM 是一个用于网络化思维的笔记工具,旨在创建 ... |
| Rockset | Rockset 是一个实时分析数据库,支持对大规模数据进行查询... |
| rspace | 本笔记本展示了如何使用RSpace文档加载器导入r... |
| RSS Feeds | 这涵盖了如何从RSS订阅源URL列表中加载HTML新闻文章... |
| RST | reStructured Text (RST) 文件是一种用于文本数据的文件格式... |
| scrapfly | ScrapFly |
| ScrapingAnt | 概述 |
| Sitemap | 继承自WebBaseLoader,SitemapLoader从...加载站点地图 |
| Slack | Slack 是一个即时通讯程序。 |
| Snowflake | 本笔记本介绍了如何从Snowflake加载文档 |
| Source Code | 本笔记本介绍了如何使用特殊API加载源代码文件... |
| Spider | Spider 是最快且最经济实惠的爬虫和抓取工具,它... |
| Spreedly | Spreedly 是一项服务,允许您安全地存储信用卡... |
| Stripe | Stripe 是一家爱尔兰-美国的金融服务和软件即服务公司... |
| Subtitle | SubRip 文件格式在 Matroska 多媒体容器中有所描述... |
| SurrealDB | SurrealDB 是一个为现代应用设计的端到端云原生数据库... |
| Telegram | Telegram Messenger 是一个全球可访问的免费增值、跨平台,... |
| Tencent COS Directory | 腾讯云对象存储(COS)是一种分布式 |
| Tencent COS File | 腾讯云对象存储(COS)是一种分布式 |
| TensorFlow Datasets | TensorFlow Datasets 是一个现成的数据集集合,与 Te... |
| TiDB | TiDB Cloud,是一个全面的数据库即服务(DBaaS)解决方案... |
| 2Markdown | 2markdown 服务将网站内容转换为结构化的 markdown... |
| TOML | TOML 是一种用于配置文件的文件格式。它旨在易于阅读和编写... |
| Trello | Trello 是一个基于网络的项目管理和协作工具,它... |
| TSV | 一个制表符分隔值(TSV)文件是一种简单的、基于文本的文件格式... |
| Twitter 是一个在线社交媒体和社交网络服务。 | |
| Unstructured | 本笔记本介绍了如何使用Unstructured文档加载器来加载... |
| UnstructuredMarkdownLoader | 本笔记本提供了快速入门UnstructuredMarkdownLoader的概述... |
| UnstructuredPDFLoader | 概述 |
| Upstage | 本笔记本介绍了如何开始使用UpstageDocumentParseLoad... |
| URL | 此示例涵盖了如何从URL列表中加载HTML文档... |
| Vsdx | 一个Visio文件(扩展名为.vsdx)与Microsoft Visi相关联... |
| Weather | OpenWeatherMap 是一个开源的气象服务提供商 |
| WebBaseLoader | 这涵盖了如何使用WebBaseLoader从HTML网页加载所有文本... |
| WhatsApp Chat | WhatsApp(也称为WhatsApp Messenger)是一款免费的跨平台... |
| Wikipedia | 维基百科是一个多语言的免费在线百科全书,由志愿者编写和维护... |
| UnstructuredXMLLoader | 本笔记本提供了快速入门UnstructuredXMLLoader的概述... |
| Xorbits Pandas DataFrame | 本笔记本介绍了如何从xorbits.pandas DataFrame加载数据... |
| YouTube audio | 在YouTube视频上构建聊天或问答应用程序是一个高度... |
| YouTube transcripts | YouTube 是一个在线视频分享和社交媒体平台... |
| YoutubeLoaderDL | 利用yt-dlp库的Youtube加载器。 |
| Yuque | Yuque 是一个专业的基于云的知识库,用于团队协作... |
| ZeroxPDFLoader | 概述 |