dask.bag.Bag.to_dataframe

dask.bag.Bag.to_dataframe

Bag.to_dataframe(meta=None, columns=None, optimize_graph=True)[源代码]

从 Dask Bag 创建 Dask Dataframe。

Bag 应包含元组、字典记录或标量。

索引将不会有特别的意义。如有必要,请使用 reindex 之后。

参数
metapd.DataFrame, dict, iterable, 可选

一个空的 pd.DataFrame,其数据类型和列名与输出匹配。此元数据对于 dask dataframe 中的许多算法正常工作是必要的。为了便于使用,还提供了一些替代输入。可以提供一个 {name: dtype} 的字典或 (name, dtype) 的可迭代对象,而不是 DataFrame。如果没有提供或是一个列表,将从第一个分区中计算一个单一元素,这可能会触发一个潜在的高成本调用 compute。这可能会导致意外的结果,因此建议提供 meta。更多信息,请参见 dask.dataframe.utils.make_meta

序列,可选

要使用的列名。如果传递的数据没有与之关联的名称,此参数为列提供名称。否则,此参数指示结果中列的顺序(任何在数据中找不到的名称将变为全NA列)。请注意,如果提供了 meta ,列名将从那里获取,此参数无效。

优化图bool, 可选

如果为 True [默认],图表在转换为 dask.dataframe.DataFrame 之前会进行优化。

示例

>>> import dask.bag as db
>>> b = db.from_sequence([{'name': 'Alice',   'balance': 100},
...                       {'name': 'Bob',     'balance': 200},
...                       {'name': 'Charlie', 'balance': 300}],
...                      npartitions=2)
>>> df = b.to_dataframe()
>>> df.compute()
      name  balance
0    Alice      100
1      Bob      200
0  Charlie      300