langchain-text-splitters: 0.3.4#
文本分割器 是用于分割文本的类。
类层次结构:
BaseDocumentTransformer --> TextSplitter --> <name>TextSplitter # Example: CharacterTextSplitter
RecursiveCharacterTextSplitter --> <name>TextSplitter
注意:MarkdownHeaderTextSplitter 和 **HTMLHeaderTextSplitter 并不继承自 TextSplitter。
主要助手:
Document, Tokenizer, Language, LineType, HeaderType
base#
类
|
编程语言的枚举。 |
|
用于将文本分割成块的接口。 |
|
使用模型分词器将文本分割为标记。 |
|
Tokenizer 数据类。 |
函数
|
使用分词器分割传入的文本并返回块。 |
character#
类
|
查看字符的文本分割。 |
通过递归查看字符来分割文本。 |
html#
类
元素类型作为类型化字典。 |
|
|
根据指定的标题分割HTML文件。 |
|
根据指定的标签和字体大小拆分HTML文件。 |
|
json#
类
|
将JSON数据分割成更小的、结构化的块,同时保留层次结构。 |
konlpy#
类
|
使用Konlpy包进行文本分割。 |
latex#
类
|
尝试沿着Latex格式的布局元素分割文本。 |
markdown#
类
一个用于处理Markdown语法的实验性文本分割器。 |
|
作为类型化字典的标题类型。 |
|
行类型作为类型化字典。 |
|
|
根据指定的标题分割Markdown文件。 |
|
尝试按照Markdown格式的标题分割文本。 |
nltk#
类
|
使用NLTK包进行文本分割。 |
python#
类
|
尝试根据Python语法分割文本。 |
sentence_transformers#
类
|
使用句子模型分词器将文本分割为标记。 |
spacy#
类
|
使用Spacy包进行文本分割。 |