Dedoc
Dedoc 支持 DOCX, XLSX, PPTX, EML, HTML, PDF, 图片等更多格式。
完整的支持格式列表可以在 这里 找到。
安装与设置
Dedoc 库
你可以使用pip安装Dedoc。
在这种情况下,你需要安装依赖项,
请访问这里
获取更多信息。
pip install dedoc
Dedoc API
如果你打算使用Dedoc API,你不需要安装dedoc库。
在这种情况下,你应该运行Dedoc服务,例如Docker容器(请参阅
文档
以获取更多详细信息):
docker pull dedocproject/dedoc
docker run -p 1231:1231
文档加载器
-
为了处理任何格式的文件(由
Dedoc支持),您可以使用DedocFileLoader:from langchain_community.document_loaders import DedocFileLoader -
用于处理PDF文件(无论是否有文本层),您可以使用
DedocPDFLoader:from langchain_community.document_loaders import DedocPDFLoader -
为了处理任何格式的文件而无需安装库,您可以使用
Dedoc API与DedocAPIFileLoader:from langchain_community.document_loaders import DedocAPIFileLoader
请参阅使用示例以获取更多详细信息。