数据连接器(LlamaHub)#
概念#
数据连接器(又称Reader
)从不同的数据源和数据格式中摄取数据,转换成简单的文档
表示(文本和简单的元数据)。
LlamaHub#
我们的数据连接器通过LlamaHub 🦙提供。 LlamaHub是一个开源仓库,包含了您可以轻松插入和使用在任何LlamaIndex应用中的数据加载器。
使用模式#
开始使用:
from llama_index.core import download_loader
from llama_index.readers.google import GoogleDocsReader
loader = GoogleDocsReader()
documents = loader.load_data(document_ids=[...])
查看完整的使用模式指南以获取更多细节。
模块#
一些示例数据连接器:
- 本地文件目录(
SimpleDirectoryReader
)。可以支持解析各种文件类型:.pdf
、.jpg
、.png
、.docx
等。 - Notion(
NotionPageReader
) - Google Docs(
GoogleDocsReader
) - Slack(
SlackReader
) - Discord(
DiscordReader
) - Apify Actors(
ApifyActor
)。可以爬取网页,抓取网页内容,提取文本内容,下载文件,包括.pdf
、.jpg
、.png
、.docx
等。
查看模块指南以获取更多细节。