dask.bag.Bag.to_dataframe
dask.bag.Bag.to_dataframe¶
- Bag.to_dataframe(meta=None, columns=None, optimize_graph=True)[源代码]¶
从 Dask Bag 创建 Dask Dataframe。
Bag 应包含元组、字典记录或标量。
索引将不会有特别的意义。如有必要,请使用
reindex
之后。- 参数
- metapd.DataFrame, dict, iterable, 可选
一个空的
pd.DataFrame
,其数据类型和列名与输出匹配。此元数据对于 dask dataframe 中的许多算法正常工作是必要的。为了便于使用,还提供了一些替代输入。可以提供一个{name: dtype}
的字典或(name, dtype)
的可迭代对象,而不是DataFrame
。如果没有提供或是一个列表,将从第一个分区中计算一个单一元素,这可能会触发一个潜在的高成本调用compute
。这可能会导致意外的结果,因此建议提供meta
。更多信息,请参见dask.dataframe.utils.make_meta
。- 列序列,可选
要使用的列名。如果传递的数据没有与之关联的名称,此参数为列提供名称。否则,此参数指示结果中列的顺序(任何在数据中找不到的名称将变为全NA列)。请注意,如果提供了
meta
,列名将从那里获取,此参数无效。- 优化图bool, 可选
如果为 True [默认],图表在转换为
dask.dataframe.DataFrame
之前会进行优化。
示例
>>> import dask.bag as db >>> b = db.from_sequence([{'name': 'Alice', 'balance': 100}, ... {'name': 'Bob', 'balance': 200}, ... {'name': 'Charlie', 'balance': 300}], ... npartitions=2) >>> df = b.to_dataframe()
>>> df.compute() name balance 0 Alice 100 1 Bob 200 0 Charlie 300