Lilac
LilacReader #
Bases: BaseReader
紫丁香数据集读取器。
Source code in llama_index/readers/lilac/base.py
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 |
|
load_data #
load_data(
dataset: str,
text_path: Path = "text",
doc_id_path: Optional[Path] = "doc_id",
columns: Optional[List[ColumnId]] = None,
filters: Optional[List[FilterLike]] = None,
project_dir: Optional[str] = None,
) -> List[Document]
从相关帖子和顶层评论中加载文本,给定搜索关键词。
Parameters:
Name | Type | Description | Default |
---|---|---|---|
project_dir |
Optional[str]
|
要读取的Lilac项目目录。如果未定义,则使用 |
None
|
text_path |
Path
|
数据集中文本字段的路径。如果未定义,则使用'text'。 |
'text'
|
columns |
Optional[List[ColumnId]]
|
从数据集中加载的列。如果未定义,则加载所有列。 |
None
|
dataset |
str
|
要加载的数据集。应格式化为{namespace}/{dataset_name}。 |
required |
filters |
Optional[Filter]
|
加载到文档中之前应用于数据集的过滤器。用于过滤标记数据非常有用。 |
None
|
Source code in llama_index/readers/lilac/base.py
14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 |
|