CoNLL-U
CoNLL-U 是 CoNLL-X 格式的修订版。注释以纯文本文件(UTF-8,标准化为 NFC,仅使用 LF 字符作为换行符,包括文件末尾的 LF 字符)编码,包含三种类型的行:
- 单词行包含一个单词/标记的注释,由10个字段组成,字段之间用单个制表符分隔;见下文。
- 标记句子边界的空行。
- 以井号(#)开头的注释行。
这是一个如何加载CoNLL-U格式文件的示例。整个文件被视为一个文档。示例数据(conllu.conllu
)基于标准UD/CoNLL-U示例之一。
from langchain_community.document_loaders import CoNLLULoader
API Reference:CoNLLULoader
loader = CoNLLULoader("example_data/conllu.conllu")
document = loader.load()
document
[Document(page_content='They buy and sell books.', metadata={'source': 'example_data/conllu.conllu'})]