ray.data.from_pandas#
- ray.data.from_pandas(dfs: pandas.DataFrame | List[pandas.DataFrame], override_num_blocks: int | None = None) MaterializedDataset[源代码]#
从 pandas 数据框列表创建一个
Dataset。示例
>>> import pandas as pd >>> import ray >>> df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]}) >>> ray.data.from_pandas(df) MaterializedDataset(num_blocks=1, num_rows=3, schema={a: int64, b: int64})
从 Pandas DataFrame 列表创建一个 Ray 数据集。
>>> ray.data.from_pandas([df, df]) MaterializedDataset(num_blocks=2, num_rows=6, schema={a: int64, b: int64})
- 参数:
dfs – 一个 pandas 数据框或一个 pandas 数据框列表。
override_num_blocks – 覆盖所有读取任务的输出块数量。默认情况下,输出块的数量是根据输入数据大小和可用资源动态决定的。在大多数情况下,您不应手动设置此值。
- 返回:
Dataset持有从数据框中读取的数据。