Transformers 文档

管道实用工具

管道工具

本页面列出了库为管道提供的所有实用函数。

大多数这些内容只有在您研究库中模型的代码时才有用。

参数处理

transformers.pipelines.ArgumentHandler

< >

( )

用于处理每个Pipeline参数的基础接口。

transformers.pipelines.ZeroShotClassificationArgumentHandler

< >

( )

通过将每个可能的标签转换为NLI前提/假设对来处理文本分类的零样本参数。

transformers.pipelines.QuestionAnsweringArgumentHandler

< >

( )

QuestionAnsweringPipeline 要求用户提供多个参数(即问题 & 上下文)以映射到内部的 SquadExample

QuestionAnsweringArgumentHandler 管理所有可能的命令行参数,用于创建 SquadExample

数据格式

transformers.PipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

  • output_path (str) — 输出数据的保存位置。
  • input_path (str) — 输入数据的查找位置。
  • column (str) — 要读取的列.
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

所有管道支持的读写数据格式的基类。目前支持的数据格式包括:

  • JSON
  • CSV
  • 标准输入/标准输出(管道)

PipelineDataFormat 还包括一些处理多列数据的实用工具,例如通过 dataset_kwarg_1=dataset_column_1 格式将数据集列映射到管道的关键字参数。

from_str

< >

( format: str output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False ) PipelineDataFormat

参数

  • format (str) — 所需管道的格式。可接受的值为 "json", "csv""pipe".
  • output_path (str, optional) — 保存输出数据的位置。
  • input_path (str, optional) — 在哪里查找输入数据.
  • column (str, optional) — 要读取的列.
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

返回

PipelineDataFormat

正确的数据格式。

根据format创建PipelineDataFormat的正确子类的实例。

保存

< >

( 数据: typing.Union[dict, typing.List[dict]] )

参数

  • data (dictdict 的列表) — 要存储的数据。

使用当前的PipelineDataFormat表示保存提供的数据对象。

save_binary

< >

( data: typing.Union[dict, typing.List[dict]] ) str

参数

  • data (dictdict 的列表) — 要存储的数据.

返回

str

数据保存的路径。

将提供的数据对象保存为磁盘上的pickle格式的二进制数据。

transformers.CsvPipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False )

参数

  • output_path (str) — 输出数据的保存位置。
  • input_path (str) — 输入数据的查找位置。
  • column (str) — 要读取的列.
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

支持使用CSV数据格式的管道。

保存

< >

( 数据: typing.List[dict] )

参数

  • data (List[dict]) — 要存储的数据.

使用当前的PipelineDataFormat表示保存提供的数据对象。

transformers.JsonPipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite = False )

参数

  • output_path (str) — 输出数据的保存位置。
  • input_path (str) — 输入数据的查找位置。
  • column (str) — 要读取的列.
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

支持使用JSON文件格式的管道。

保存

< >

( 数据: 字典 )

参数

  • data (dict) — 要存储的数据.

将提供的数据对象保存在一个json文件中。

transformers.PipedPipelineDataFormat

< >

( output_path: typing.Optional[str] input_path: typing.Optional[str] column: typing.Optional[str] overwrite: bool = False )

参数

  • output_path (str) — 输出数据的保存位置。
  • input_path (str) — 输入数据的查找位置.
  • column (str) — 要读取的列.
  • overwrite (bool, 可选, 默认为 False) — 是否覆盖 output_path.

从管道输入读取数据到python进程。对于多列数据,列之间应该用

如果提供了列,则输出将是一个字典,格式为 {column_x: value_x}

保存

< >

( 数据: 字典 )

参数

  • data (dict) — 要存储的数据.

打印数据。

工具

transformers.pipelines.PipelineException

< >

( 任务: str 模型: str 原因: str )

参数

  • 任务 (str) — 管道的任务。
  • model (str) — 管道使用的模型。
  • 原因 (str) — 要显示的错误信息。

Pipeline在处理call时引发。

< > Update on GitHub