Transformers 文档

管道实用工具

Transformers

管道工具

本页面列出了库为管道提供的所有实用函数。

大多数这些内容只有在您研究库中模型的代码时才有用。

参数处理

类 transformers.pipelines.ArgumentHandler

< source >

( )

用于处理每个Pipeline参数的基础接口。

类 transformers.pipelines.ZeroShotClassificationArgumentHandler

< source >

( )

通过将每个可能的标签转换为NLI前提/假设对来处理文本分类的零样本参数。

类 transformers.pipelines.QuestionAnsweringArgumentHandler

< source >

( )

QuestionAnsweringPipeline 要求用户提供多个参数（即问题 & 上下文）以映射到内部的 SquadExample。

QuestionAnsweringArgumentHandler 管理所有可能的命令行参数，用于创建 SquadExample。

数据格式

类 transformers.PipelineDataFormat

< source >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

output_path (str) — 输出数据的保存位置。
input_path (str) — 输入数据的查找位置。
column (str) — 要读取的列.
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

所有管道支持的读写数据格式的基类。目前支持的数据格式包括：

JSON
CSV
标准输入/标准输出（管道）

PipelineDataFormat 还包括一些处理多列数据的实用工具，例如通过 dataset_kwarg_1=dataset_column_1 格式将数据集列映射到管道的关键字参数。

from_str

< source >

( format: str output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False ) → PipelineDataFormat

参数

format (str) — 所需管道的格式。可接受的值为 "json", "csv" 或 "pipe".
output_path (str, optional) — 保存输出数据的位置。
input_path (str, optional) — 在哪里查找输入数据.
column (str, optional) — 要读取的列.
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

PipelineDataFormat

正确的数据格式。

根据format创建PipelineDataFormat的正确子类的实例。

保存

< source >

( 数据: typing.Union[dict, typing.List[dict]] )

参数

data (dict 或 dict 的列表) — 要存储的数据。

使用当前的PipelineDataFormat表示保存提供的数据对象。

save_binary

< source >

( data: typing.Union[dict, typing.List[dict]] ) → str

参数

data (dict 或 dict 的列表) — 要存储的数据.

str

数据保存的路径。

将提供的数据对象保存为磁盘上的pickle格式的二进制数据。

类 transformers.CsvPipelineDataFormat

< source >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False )

参数

output_path (str) — 输出数据的保存位置。
input_path (str) — 输入数据的查找位置。
column (str) — 要读取的列.
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

支持使用CSV数据格式的管道。

保存

< source >

( 数据: typing.List[dict] )

参数

data (List[dict]) — 要存储的数据.

使用当前的PipelineDataFormat表示保存提供的数据对象。

类 transformers.JsonPipelineDataFormat

< source >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False )

参数

output_path (str) — 输出数据的保存位置。
input_path (str) — 输入数据的查找位置。
column (str) — 要读取的列.
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

支持使用JSON文件格式的管道。

保存

< source >

( 数据: 字典 )

参数

data (dict) — 要存储的数据.

将提供的数据对象保存在一个json文件中。

类 transformers.PipedPipelineDataFormat

< source >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

output_path (str) — 输出数据的保存位置。
input_path (str) — 输入数据的查找位置.
column (str) — 要读取的列.
overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

从管道输入读取数据到python进程。对于多列数据，列之间应该用

如果提供了列，则输出将是一个字典，格式为 {column_x: value_x}

保存

< source >

( 数据: 字典 )

参数

data (dict) — 要存储的数据.

打印数据。

工具

类 transformers.pipelines.PipelineException

< source >

( 任务: str 模型: str 原因: str )

参数

任务 (str) — 管道的任务。
model (str) — 管道使用的模型。
原因 (str) — 要显示的错误信息。

由Pipeline在处理call时引发。

< > Update on GitHub

←Custom Layers and Utilities Utilities for Tokenizers→