dask_ml.preprocessing.BlockTransformer

dask_ml.preprocessing.BlockTransformer

class dask_ml.preprocessing.BlockTransformer(func: Callable[[...], Union[dask_ml._typing.ArrayLike, pandas.core.frame.DataFrame, dask_expr._collection.DataFrame]], *, validate: bool = False, **kw_args: Any)[源代码]

从任意可调用对象构建一个转换器

BlockTransformer 将 X 参数的块转发给用户定义的可调用对象,并返回此操作的结果。这对于可以在单元格或块级别执行的无状态操作非常有用,例如计算频率的对数。通常,该转换器不适合例如标准化任务,因为这需要完整列的信息。

参数
函数可调用

用于转换的可调用对象。

验证bool, 可选 默认=False

在调用之前,应检查输入的 X 数组。

func.

kw_argsdict, 可选

传递给 func 的额外关键字参数的字典。

示例

>>> import dask.datasets
>>> import pandas as pd
>>> from dask_ml.preprocessing import BlockTransformer
>>> df = dask.datasets.timeseries()
>>> df
... 
Dask DataFrame Structure:
                   id    name        x        y
npartitions=30
2000-01-01      int64  object  float64  float64
2000-01-02        ...     ...      ...      ...
...               ...     ...      ...      ...
2000-01-30        ...     ...      ...      ...
2000-01-31        ...     ...      ...      ...
Dask Name: make-timeseries, 30 tasks
>>> trn = BlockTransformer(pd.util.hash_pandas_object, index=False)
>>> trn.transform(df)
... 
Dask Series Structure:
npartitions=30
2000-01-01    uint64
2000-01-02       ...
            ...
2000-01-30       ...
2000-01-31       ...
dtype: uint64
Dask Name: hash_pandas_object, 60 tasks

方法

fit_transform(X[, y])

拟合数据,然后进行转换。

get_metadata_routing()

获取此对象的元数据路由。

get_params([deep])

获取此估计器的参数。

set_output(*[, transform])

设置输出容器。

set_params(**params)

设置此估计器的参数。

拟合

变换

__init__(func: Callable[[...], Union[dask_ml._typing.ArrayLike, pandas.core.frame.DataFrame, dask_expr._collection.DataFrame]], *, validate: bool = False, **kw_args: Any)[源代码]