Skip to content

Llama dataset metadata

LlamaDatasetMetadataPack #

Bases: BaseLlamaPack

用于创建和保存提交llamadataset所需的元数据文件的llamapack:card.json和README.md。

Source code in llama_index/packs/llama_dataset_metadata/base.py
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
class LlamaDatasetMetadataPack(BaseLlamaPack):
    """用于创建和保存提交llamadataset所需的元数据文件的llamapack:card.json和README.md。"""

    def run(
        self,
        index: BaseIndex,
        benchmark_df: pd.DataFrame,
        rag_dataset: "LabelledRagDataset",
        name: str,
        description: str,
        baseline_name: str,
        source_urls: Optional[List[str]] = None,
        code_url: Optional[str] = None,
    ):
        """主要用于llamapack的使用。这将构建card.json和README.md并将它们保存到本地磁盘。

Args:
    index (BaseIndex): 从中派生query_engine并在rag评估中使用的索引。
    benchmark_df (pd.DataFrame): 使用RagEvaluatorPack后的基准数据框。
    rag_dataset (LabelledRagDataset): 用于评估的LabelledRagDataset。
    name (str): 新数据集的名称,例如"Paul Graham Essay Dataset"。
    baseline_name (str): 基线的名称,例如"llamaindex"。
    description (str): 新数据集的描述。
    source_urls (Optional[List[str]], optional): _描述_. 默认为None。
    code_url (Optional[str], optional): _描述_. 默认为None。
"""
        readme_obj = Readme(name=name)
        card_obj = DatasetCard.from_rag_evaluation(
            index=index,
            benchmark_df=benchmark_df,
            rag_dataset=rag_dataset,
            name=name,
            description=description,
            baseline_name=baseline_name,
            source_urls=source_urls,
            code_url=code_url,
        )

        # save card.json
        with open("card.json", "w") as f:
            json.dump(card_obj.dict(by_alias=True), f)

        # save README.md
        with open("README.md", "w") as f:
            f.write(readme_obj.create_readme())

run #

run(
    index: BaseIndex,
    benchmark_df: DataFrame,
    rag_dataset: LabelledRagDataset,
    name: str,
    description: str,
    baseline_name: str,
    source_urls: Optional[List[str]] = None,
    code_url: Optional[str] = None,
)

主要用于llamapack的使用。这将构建card.json和README.md并将它们保存到本地磁盘。

Parameters:

Name Type Description Default
index BaseIndex

从中派生query_engine并在rag评估中使用的索引。

required
benchmark_df DataFrame

使用RagEvaluatorPack后的基准数据框。

required
rag_dataset LabelledRagDataset

用于评估的LabelledRagDataset。

required
name str

新数据集的名称,例如"Paul Graham Essay Dataset"。

required
baseline_name str

基线的名称,例如"llamaindex"。

required
description str

新数据集的描述。

required
source_urls Optional[List[str]]

描述. 默认为None。

None
code_url Optional[str]

描述. 默认为None。

None
Source code in llama_index/packs/llama_dataset_metadata/base.py
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
    def run(
        self,
        index: BaseIndex,
        benchmark_df: pd.DataFrame,
        rag_dataset: "LabelledRagDataset",
        name: str,
        description: str,
        baseline_name: str,
        source_urls: Optional[List[str]] = None,
        code_url: Optional[str] = None,
    ):
        """主要用于llamapack的使用。这将构建card.json和README.md并将它们保存到本地磁盘。

Args:
    index (BaseIndex): 从中派生query_engine并在rag评估中使用的索引。
    benchmark_df (pd.DataFrame): 使用RagEvaluatorPack后的基准数据框。
    rag_dataset (LabelledRagDataset): 用于评估的LabelledRagDataset。
    name (str): 新数据集的名称,例如"Paul Graham Essay Dataset"。
    baseline_name (str): 基线的名称,例如"llamaindex"。
    description (str): 新数据集的描述。
    source_urls (Optional[List[str]], optional): _描述_. 默认为None。
    code_url (Optional[str], optional): _描述_. 默认为None。
"""
        readme_obj = Readme(name=name)
        card_obj = DatasetCard.from_rag_evaluation(
            index=index,
            benchmark_df=benchmark_df,
            rag_dataset=rag_dataset,
            name=name,
            description=description,
            baseline_name=baseline_name,
            source_urls=source_urls,
            code_url=code_url,
        )

        # save card.json
        with open("card.json", "w") as f:
            json.dump(card_obj.dict(by_alias=True), f)

        # save README.md
        with open("README.md", "w") as f:
            f.write(readme_obj.create_readme())