ray.data.from_items#

ray.data.from_items(items: List[Any], *, parallelism: int = -1, override_num_blocks: int | None = None) MaterializedDataset[源代码]#

从本地 Python 对象列表创建一个 Dataset

使用此方法从适合内存的数据中创建小型数据集。

示例

>>> import ray
>>> ds = ray.data.from_items([1, 2, 3, 4, 5])
>>> ds
MaterializedDataset(num_blocks=..., num_rows=5, schema={item: int64})
>>> ds.schema()
Column  Type
------  ----
item    int64
参数:
  • items – 本地 Python 对象列表。

  • parallelism – 此参数已弃用。请使用 override_num_blocks 参数。

  • override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。

返回:

一个包含项目的 Dataset