Docx2txtLoader#
- class langchain_community.document_loaders.word_document.Docx2txtLoader(file_path: str | Path)[source]#
使用docx2txt加载DOCX文件并在字符级别进行分块。
默认检查本地文件,但如果文件是网络路径,它将下载到一个临时文件并使用该文件,完成后清理临时文件
使用文件路径进行初始化。
方法
__init__
(file_path)使用文件路径进行初始化。
文档的懒加载器。
aload
()将数据加载到Document对象中。
文档的懒加载器。
load
()将给定路径加载为单页。
load_and_split
([text_splitter])加载文档并将其分割成块。
- Parameters:
file_path (str | Path)
- load_and_split(text_splitter: TextSplitter | None = None) list[Document] #
加载文档并将其分割成块。块以文档形式返回。
不要重写此方法。它应该被视为已弃用!
- Parameters:
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。 默认为RecursiveCharacterTextSplitter。
- Returns:
文档列表。
- Return type:
列表[Document]
使用 Docx2txtLoader 的示例