langchain-text-splitters: 0.3.4#

文本分割器 是用于分割文本的类。

类层次结构:

BaseDocumentTransformer --> TextSplitter --> <name>TextSplitter  # Example: CharacterTextSplitter
                                             RecursiveCharacterTextSplitter -->  <name>TextSplitter

注意:MarkdownHeaderTextSplitter**HTMLHeaderTextSplitter 并不继承自 TextSplitter。

主要助手:

Document, Tokenizer, Language, LineType, HeaderType

base#

base.Language(value[, names, module, ...])

编程语言的枚举。

base.TextSplitter(chunk_size, chunk_overlap, ...)

用于将文本分割成块的接口。

base.TokenTextSplitter([encoding_name, ...])

使用模型分词器将文本分割为标记。

base.Tokenizer(chunk_overlap, ...)

Tokenizer 数据类。

函数

base.split_text_on_tokens(*, text, tokenizer)

使用分词器分割传入的文本并返回块。

character#

character.CharacterTextSplitter([separator, ...])

查看字符的文本分割。

character.RecursiveCharacterTextSplitter([...])

通过递归查看字符来分割文本。

html#

html.ElementType

元素类型作为类型化字典。

html.HTMLHeaderTextSplitter(headers_to_split_on)

根据指定的标题分割HTML文件。

html.HTMLSectionSplitter(headers_to_split_on)

根据指定的标签和字体大小拆分HTML文件。

html.HTMLSemanticPreservingSplitter(...[, ...])

json#

json.RecursiveJsonSplitter([max_chunk_size, ...])

将JSON数据分割成更小的、结构化的块,同时保留层次结构。

konlpy#

konlpy.KonlpyTextSplitter([separator])

使用Konlpy包进行文本分割。

latex#

latex.LatexTextSplitter(**kwargs)

尝试沿着Latex格式的布局元素分割文本。

markdown#

markdown.ExperimentalMarkdownSyntaxTextSplitter([...])

一个用于处理Markdown语法的实验性文本分割器。

markdown.HeaderType

作为类型化字典的标题类型。

markdown.LineType

行类型作为类型化字典。

markdown.MarkdownHeaderTextSplitter(...[, ...])

根据指定的标题分割Markdown文件。

markdown.MarkdownTextSplitter(**kwargs)

尝试按照Markdown格式的标题分割文本。

nltk#

nltk.NLTKTextSplitter([separator, language, ...])

使用NLTK包进行文本分割。

python#

python.PythonCodeTextSplitter(**kwargs)

尝试根据Python语法分割文本。

sentence_transformers#

sentence_transformers.SentenceTransformersTokenTextSplitter([...])

使用句子模型分词器将文本分割为标记。

spacy#

spacy.SpacyTextSplitter([separator, ...])

使用Spacy包进行文本分割。