Skip to main content
Open on GitHub

Dedoc

Dedoc 是一个 开源的库/服务,它可以从各种格式的文件中提取文本、表格、附件和文档结构(例如,标题、列表项等)。

Dedoc 支持 DOCX, XLSX, PPTX, EML, HTML, PDF, 图片等更多格式。 完整的支持格式列表可以在 这里 找到。

安装与设置

Dedoc 库

你可以使用pip安装Dedoc。 在这种情况下,你需要安装依赖项, 请访问这里 获取更多信息。

pip install dedoc

Dedoc API

如果你打算使用Dedoc API,你不需要安装dedoc库。 在这种情况下,你应该运行Dedoc服务,例如Docker容器(请参阅 文档 以获取更多详细信息):

docker pull dedocproject/dedoc
docker run -p 1231:1231

文档加载器

  • 为了处理任何格式的文件(由Dedoc支持),您可以使用DedocFileLoader

    from langchain_community.document_loaders import DedocFileLoader
  • 用于处理PDF文件(无论是否有文本层),您可以使用DedocPDFLoader

    from langchain_community.document_loaders import DedocPDFLoader
  • 为了处理任何格式的文件而无需安装库,您可以使用Dedoc APIDedocAPIFileLoader

    from langchain_community.document_loaders import DedocAPIFileLoader

请参阅使用示例以获取更多详细信息。


这个页面有帮助吗?