dask.dataframe.from_延迟

dask.dataframe.from_延迟

dask.dataframe.from_delayed(dfs: Delayed | distributed.Future | Iterable[Delayed | distributed.Future], meta=None, divisions: tuple | Literal['sorted'] | None = None, prefix: str = 'from-delayed', verify_meta: bool = True) DataFrame | Series[源代码]

从许多 Dask Delayed 对象创建 Dask DataFrame。

警告

from_delayed 仅应在创建数据的物体复杂且无法以令人尴尬的并行方式轻松表示为单个函数时使用。

如果查询可以表示为一个单一函数,推荐使用 from_map ,例如:

def read_xml(path):

return pd.read_xml(path)

ddf = dd.from_map(read_xml, paths)

from_delayed 未来可能会被弃用。

参数
dfs

一个 dask.delayed.Delayed ,一个 distributed.Future ,或这些对象的迭代,例如由 client.submit 返回。这些构成了结果数据帧的各个分区。如果提供了一个单一对象(不是迭代),那么结果数据帧将只有一个分区。

metapd.DataFrame, pd.Series, dict, iterable, tuple, optional

一个空的 pd.DataFramepd.Series,其数据类型和列名与输出匹配。此元数据对于 dask dataframe 中的许多算法正常工作是必要的。为了便于使用,还提供了一些替代输入。除了 DataFrame 之外,还可以提供 {name: dtype} 的字典或 (name, dtype) 的可迭代对象(注意名称的顺序应与列的顺序匹配)。除了系列之外,还可以使用 (name, dtype) 的元组。如果未提供,dask 将尝试推断元数据。这可能会导致意外结果,因此建议提供 meta。有关更多信息,请参阅 dask.dataframe.utils.make_meta

部门

沿索引的分区边界。对于元组,请参见 http://www.aidoczh.com/dask/dataframe-design.html#partitions 对于字符串 ‘sorted’,将计算延迟值以找到索引值。假设索引是相互排序的。如果为 None,则不会使用索引信息。

前缀

要添加到键前面的前缀。

verify_meta

如果为 True,检查分区是否具有一致的元数据,默认为 True。