langchain_text_splitters 0.2.0

langchain_text_splitters.base

Classes

base.Language(value[, names, module, ...])

编程语言的枚举。

base.TextSplitter(chunk_size, chunk_overlap, ...)

文本分割接口。

base.TokenTextSplitter([encoding_name, ...])

使用模型分词器将文本拆分为标记。

base.Tokenizer(chunk_overlap, ...)

分词器数据类。

Functions

base.split_text_on_tokens(*, text, tokenizer)

分割传入的文本并使用标记器返回块。

langchain_text_splitters.character

Classes

character.CharacterTextSplitter([separator, ...])

分割查看字符的文本。

character.RecursiveCharacterTextSplitter([...])

通过递归查看字符来拆分文本。

langchain_text_splitters.html

Classes

html.ElementType

元素类型为类型字典。

html.HTMLHeaderTextSplitter(headers_to_split_on)

根据指定的标题拆分HTML文件。 需要lxml包。

html.HTMLSectionSplitter(headers_to_split_on)

根据指定的标签和字体大小拆分HTML文件。 需要lxml包。

langchain_text_splitters.json

Classes

json.RecursiveJsonSplitter([max_chunk_size, ...])

langchain_text_splitters.konlpy

Classes

konlpy.KonlpyTextSplitter([separator])

使用Konlpy包来分割文本。

langchain_text_splitters.latex

Classes

latex.LatexTextSplitter(**kwargs)

尝试沿着Latex格式的布局元素拆分文本。

langchain_text_splitters.markdown

Classes

markdown.HeaderType

标头类型,作为类型字典。

markdown.LineType

行类型,作为类型字典。

markdown.MarkdownHeaderTextSplitter(...[, ...])

根据指定的标题拆分Markdown文件。

markdown.MarkdownTextSplitter(**kwargs)

尝试沿着Markdown格式的标题拆分文本。

langchain_text_splitters.nltk

Classes

nltk.NLTKTextSplitter([separator, language])

使用NLTK包分割文本。

langchain_text_splitters.python

Classes

python.PythonCodeTextSplitter(**kwargs)

尝试沿着Python语法拆分文本。

langchain_text_splitters.sentence_transformers

Classes

sentence_transformers.SentenceTransformersTokenTextSplitter([...])

使用句子模型分词器将文本拆分为标记。

langchain_text_splitters.spacy

Classes

spacy.SpacyTextSplitter([separator, ...])

使用Spacy包来分割文本。