Pipeline ¶
-
class
pyspark.ml.Pipeline( * , stages : Optional [ List [ PipelineStage ] ] = None ) [source] ¶ -
一个简单的管道,作为估计器。一个管道由一系列阶段组成,每个阶段要么是一个
Estimator要么是一个Transformer。当Pipeline.fit()被调用时,阶段按顺序执行。如果一个阶段是一个Estimator,它的Estimator.fit()方法将在输入数据集上调用以拟合一个模型。然后,该模型(作为一个转换器)将被用来转换数据集作为下一个阶段的输入。如果一个阶段是一个Transformer,它的Transformer.transform()方法将被调用来生成下一个阶段的数据集。来自一个Pipeline的拟合模型是一个PipelineModel,它由拟合的模型和转换器组成,对应于管道的阶段。如果阶段是一个空列表,管道作为一个身份转换器。新增于版本 1.3.0。
方法
clear(参数)如果参数已明确设置,则从参数映射中清除该参数。
copy([extra])创建此实例的副本。
explainParam(参数)解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
extractParamMap([extra])提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
fit(数据集[, 参数])使用可选参数将模型拟合到输入数据集。
fitMultiple(数据集, 参数映射)为输入数据集中的每个参数映射拟合一个模型。
getOrDefault(参数)获取用户提供的参数映射中的参数值或其默认值。
getParam(参数名称)根据名称获取参数。
getStages()获取流水线阶段。
hasDefault(参数)检查参数是否具有默认值。
hasParam(参数名称)测试此实例是否包含具有给定(字符串)名称的参数。
isDefined(参数)检查参数是否由用户显式设置或具有默认值。
isSet(参数)检查参数是否被用户显式设置。
load(路径)从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
read()返回此类的一个 MLReader 实例。
save(路径)将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
set(参数, 值)在嵌入的参数映射中设置一个参数。
setParams(self, \*[, stages])设置Pipeline的参数。
setStages(值)设置流水线阶段。
write()返回此ML实例的MLWriter实例。
属性
返回按名称排序的所有参数。
方法文档
-
clear( param : pyspark.ml.param.Param ) → None ¶ -
如果参数已明确设置,则从参数映射中清除该参数。
-
copy( extra : Optional [ ParamMap ] = None ) → Pipeline [source] ¶ -
创建此实例的副本。
新增于版本 1.4.0。
- Parameters
-
- extra dict, optional
-
额外参数
- Returns
-
-
Pipeline -
新实例
-
-
explainParam( param : Union [ str , pyspark.ml.param.Param ] ) → str ¶ -
解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
-
explainParams( ) → str ¶ -
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
-
extractParamMap( extra : Optional [ ParamMap ] = None ) → ParamMap ¶ -
提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
- Parameters
-
- extra dict, optional
-
额外参数值
- Returns
-
- dict
-
合并的参数映射
-
fit( dataset : pyspark.sql.dataframe.DataFrame , params : Union[ParamMap, List[ParamMap], Tuple[ParamMap], None] = None ) → Union [ M , List [ M ] ] ¶ -
使用可选参数将模型拟合到输入数据集。
新增于版本 1.3.0。
- Parameters
-
-
dataset
pyspark.sql.DataFrame -
输入数据集。
- params dict or list or tuple, optional
-
一个可选的参数映射,用于覆盖嵌入的参数。如果给定了一个参数映射的列表/元组,这将调用每个参数映射上的fit方法,并返回一个模型列表。
-
dataset
- Returns
-
-
Transformeror a list ofTransformer -
拟合模型
-
-
fitMultiple( dataset : pyspark.sql.dataframe.DataFrame , paramMaps : Sequence [ ParamMap ] ) → Iterator [ Tuple [ int , M ] ] ¶ -
为输入数据集中的每个参数映射拟合一个模型。
新增于版本 2.3.0。
- Parameters
-
-
dataset
pyspark.sql.DataFrame -
输入数据集。
-
paramMaps
collections.abc.Sequence -
一系列参数映射。
-
dataset
- Returns
-
-
_FitMultipleIterator -
一个线程安全的可迭代对象,其中包含每个参数映射的一个模型。每次调用 next(modelIterator) 将返回 (index, model) ,其中模型是使用 paramMaps[index] 拟合的。 index 值可能不是连续的。
-
-
getOrDefault( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ] ¶ -
获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置,则引发错误。
-
getParam( paramName : str ) → pyspark.ml.param.Param ¶ -
根据名称获取参数。
-
hasDefault( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否具有默认值。
-
hasParam( paramName : str ) → bool ¶ -
测试此实例是否包含具有给定(字符串)名称的参数。
-
isDefined( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否由用户显式设置或具有默认值。
-
isSet( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否被用户显式设置。
-
classmethod
load( path : str ) → RL ¶ -
从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
-
classmethod
read( ) → pyspark.ml.pipeline.PipelineReader [source] ¶ -
返回此类的一个 MLReader 实例。
新增于版本 2.0.0。
-
save( path : str ) → None ¶ -
将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
-
set( param : pyspark.ml.param.Param , value : Any ) → None ¶ -
在嵌入的参数映射中设置一个参数。
-
setStages( value : List [ PipelineStage ] ) → Pipeline [source] ¶ -
设置流水线阶段。
新增于版本 1.3.0。
- Parameters
-
- value list
- Returns
-
-
Pipeline -
流水线实例
-
-
write( ) → pyspark.ml.util.MLWriter [source] ¶ -
返回此ML实例的MLWriter实例。
新增于版本 2.0.0。
属性文档
-
params¶ -
返回按名称排序的所有参数。默认实现使用
dir()获取所有类型为Param的属性。
-
stages: pyspark.ml.param.Param[List[PipelineStage]] = Param(parent='undefined', name='stages', doc='a list of pipeline stages') ¶
-