ray.data.from_pandas#

ray.data.from_pandas(dfs: pandas.DataFrame | List[pandas.DataFrame], override_num_blocks: int | None = None) → MaterializedDataset[源代码]#

从 pandas 数据框列表创建一个 Dataset。

示例

>>> import pandas as pd
>>> import ray
>>> df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})
>>> ray.data.from_pandas(df)
MaterializedDataset(num_blocks=1, num_rows=3, schema={a: int64, b: int64})

从 Pandas DataFrame 列表创建一个 Ray 数据集。
>>> ray.data.from_pandas([df, df])
MaterializedDataset(num_blocks=2, num_rows=6, schema={a: int64, b: int64})

参数:

dfs – 一个 pandas 数据框或一个 pandas 数据框列表。
override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下，输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下，您不应手动设置此值。

返回:

Dataset 持有从数据框中读取的数据。