GeneralizedLinearRegressionModel ¶
-
class
pyspark.ml.regression.GeneralizedLinearRegressionModel( java_model : Optional [ JavaObject ] = None ) [source] ¶ -
由
GeneralizedLinearRegression拟合的模型。新增于版本 2.0.0。
方法
clear(参数)如果参数已明确设置,则从参数映射中清除该参数。
copy([extra])创建此实例的副本,具有相同的uid和一些额外的参数。
evaluate(数据集)在测试数据集上评估模型。
explainParam(参数)解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
extractParamMap([extra])提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
获取aggregationDepth的值或其默认值。
getFamily()获取 family 的值或其默认值。
获取featuresCol的值或其默认值。
获取fitIntercept的值或其默认值。
getLabelCol()获取 labelCol 的值或其默认值。
getLink()获取链接的值或其默认值。
getLinkPower()获取 linkPower 的值或其默认值。
获取linkPredictionCol的值或其默认值。
getMaxIter()获取maxIter的值或其默认值。
getOffsetCol()获取offsetCol的值或其默认值。
getOrDefault(参数)获取用户提供的参数映射中的参数值或其默认值。
getParam(paramName)根据名称获取参数。
获取 predictionCol 的值或其默认值。
getRegParam()获取regParam的值或其默认值。
getSolver()获取solver的值或其默认值。
getTol()获取tol的值或其默认值。
获取variancePower的值或其默认值。
getWeightCol()获取 weightCol 的值或其默认值。
hasDefault(参数)检查参数是否具有默认值。
hasParam(paramName)测试此实例是否包含具有给定(字符串)名称的参数。
isDefined(参数)检查参数是否由用户显式设置或具有默认值。
isSet(参数)检查参数是否被用户显式设置。
load(路径)从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
predict(值)预测给定特征的标签。
读取()返回此类的一个 MLReader 实例。
save(路径)将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
set(参数, 值)在嵌入的参数映射中设置一个参数。
setFeaturesCol(值)设置
featuresCol的值。设置
linkPredictionCol的值。setPredictionCol(值)设置
predictionCol的值。transform(数据集[, 参数])使用可选参数转换输入数据集。
write()返回此ML实例的MLWriter实例。
属性
模型系数。
指示此模型实例是否存在训练摘要。
模型截距。
返回模型训练的特征数量。
返回按名称排序的所有参数。
获取训练集上模型的摘要(残差、偏差、p值)。
方法文档
-
clear( param : pyspark.ml.param.Param ) → None ¶ -
如果参数已明确设置,则从参数映射中清除该参数。
-
copy( extra : Optional [ ParamMap ] = None ) → JP ¶ -
创建此实例的副本,具有相同的uid和一些额外的参数。此实现首先调用Params.copy,然后使用额外参数复制伴随的Java管道组件。因此,Python包装器和Java管道组件都会被复制。
- Parameters
-
- extra dict, optional
-
复制到新实例的额外参数
- Returns
-
-
JavaParams -
此实例的副本
-
-
evaluate( dataset : pyspark.sql.dataframe.DataFrame ) → pyspark.ml.regression.GeneralizedLinearRegressionSummary [source] ¶ -
在测试数据集上评估模型。
新增于版本 2.0.0。
- Parameters
-
-
dataset
pyspark.sql.DataFrame -
用于评估模型的测试数据集,其中数据集是
pyspark.sql.DataFrame的一个实例
-
dataset
-
explainParam( param : Union [ str , pyspark.ml.param.Param ] ) → str ¶ -
解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
-
explainParams( ) → str ¶ -
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
-
extractParamMap( extra : Optional [ ParamMap ] = None ) → ParamMap ¶ -
提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
- Parameters
-
- extra dict, optional
-
额外参数值
- Returns
-
- dict
-
合并的参数映射
-
getAggregationDepth( ) → int ¶ -
获取aggregationDepth的值或其默认值。
-
getFamily( ) → str ¶ -
获取 family 的值或其默认值。
新增于版本 2.0.0。
-
getFeaturesCol( ) → str ¶ -
获取featuresCol的值或其默认值。
-
getFitIntercept( ) → bool ¶ -
获取fitIntercept的值或其默认值。
-
getLabelCol( ) → str ¶ -
获取 labelCol 的值或其默认值。
-
getLink( ) → str ¶ -
获取链接的值或其默认值。
新增于版本 2.0.0。
-
getLinkPower( ) → float ¶ -
获取 linkPower 的值或其默认值。
新增于版本 2.2.0。
-
getLinkPredictionCol( ) → str ¶ -
获取linkPredictionCol的值或其默认值。
新增于版本 2.0.0。
-
getMaxIter( ) → int ¶ -
获取maxIter的值或其默认值。
-
getOffsetCol( ) → str ¶ -
获取offsetCol的值或其默认值。
新增于版本 2.3.0。
-
getOrDefault( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ] ¶ -
获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置,则引发错误。
-
getParam( paramName : str ) → pyspark.ml.param.Param ¶ -
根据名称获取参数。
-
getPredictionCol( ) → str ¶ -
获取 predictionCol 的值或其默认值。
-
getRegParam( ) → float ¶ -
获取regParam的值或其默认值。
-
getSolver( ) → str ¶ -
获取solver的值或其默认值。
-
getTol( ) → float ¶ -
获取tol的值或其默认值。
-
getVariancePower( ) → float ¶ -
获取variancePower的值或其默认值。
新增于版本 2.2.0。
-
getWeightCol( ) → str ¶ -
获取 weightCol 的值或其默认值。
-
hasDefault( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否具有默认值。
-
hasParam( paramName : str ) → bool ¶ -
测试此实例是否包含具有给定(字符串)名称的参数。
-
isDefined( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否由用户显式设置或具有默认值。
-
isSet( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否被用户显式设置。
-
classmethod
load( path : str ) → RL ¶ -
从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
-
predict( value : T ) → float ¶ -
预测给定特征的标签。
新增于版本 3.0.0。
-
classmethod
read( ) → pyspark.ml.util.JavaMLReader [ RL ] ¶ -
返回此类的一个 MLReader 实例。
-
save( path : str ) → None ¶ -
将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
-
set( param : pyspark.ml.param.Param , value : Any ) → None ¶ -
在嵌入的参数映射中设置一个参数。
-
setFeaturesCol( value : str ) → P ¶ -
设置
featuresCol的值。新增于版本 3.0.0。
-
setLinkPredictionCol( value : str ) → pyspark.ml.regression.GeneralizedLinearRegressionModel [source] ¶ -
设置
linkPredictionCol的值。新增于版本 3.0.0。
-
setPredictionCol( value : str ) → P ¶ -
设置
predictionCol的值。新增于版本 3.0.0。
-
transform( dataset : pyspark.sql.dataframe.DataFrame , params : Optional [ ParamMap ] = None ) → pyspark.sql.dataframe.DataFrame ¶ -
使用可选参数转换输入数据集。
新增于版本 1.3.0。
- Parameters
-
-
dataset
pyspark.sql.DataFrame -
输入数据集
- params dict, optional
-
一个可选的参数映射,用于覆盖嵌入的参数。
-
dataset
- Returns
-
-
pyspark.sql.DataFrame -
转换后的数据集
-
-
write( ) → pyspark.ml.util.JavaMLWriter ¶ -
返回此ML实例的MLWriter实例。
属性文档
-
aggregationDepth= Param(parent='undefined', name='aggregationDepth', doc='suggested depth for treeAggregate (>= 2).') ¶
-
coefficients¶ -
模型系数。
新增于版本 2.0.0。
-
family: pyspark.ml.param.Param[str] = Param(parent='undefined', name='family', doc='The name of family which is a description of the error distribution to be used in the model. Supported options: gaussian (default), binomial, poisson, gamma and tweedie.') ¶
-
featuresCol= Param(parent='undefined', name='featuresCol', doc='features column name.') ¶
-
fitIntercept= Param(parent='undefined', name='fitIntercept', doc='whether to fit an intercept term.') ¶
-
hasSummary¶ -
指示此模型实例是否存在训练摘要。
新增于版本 2.1.0。
-
intercept¶ -
模型截距。
新增于版本 2.0.0。
-
labelCol= Param(parent='undefined', name='labelCol', doc='label column name.') ¶
-
link: pyspark.ml.param.Param[str] = Param(parent='undefined', name='link', doc='The name of link function which provides the relationship between the linear predictor and the mean of the distribution function. Supported options: identity, log, inverse, logit, probit, cloglog and sqrt.') ¶
-
linkPower: pyspark.ml.param.Param[float] = Param(parent='undefined', name='linkPower', doc='The index in the power link function. Only applicable to the Tweedie family.') ¶
-
linkPredictionCol: pyspark.ml.param.Param[str] = Param(parent='undefined', name='linkPredictionCol', doc='link prediction (linear predictor) column name') ¶
-
maxIter= Param(parent='undefined', name='maxIter', doc='max number of iterations (>= 0).') ¶
-
numFeatures¶ -
返回模型训练的特征数量。如果未知,返回-1
新增于版本 2.1.0。
-
offsetCol: pyspark.ml.param.Param[str] = Param(parent='undefined', name='offsetCol', doc='The offset column name. If this is not set or empty, we treat all instance offsets as 0.0') ¶
-
params¶ -
返回按名称排序的所有参数。默认实现使用
dir()获取所有类型为Param的属性。
-
predictionCol= Param(parent='undefined', name='predictionCol', doc='prediction column name.') ¶
-
regParam= Param(parent='undefined', name='regParam', doc='regularization parameter (>= 0).') ¶
-
solver: pyspark.ml.param.Param[str] = Param(parent='undefined', name='solver', doc='The solver algorithm for optimization. Supported options: irls.') ¶
-
summary¶ -
获取训练集上模型的摘要(残差、偏差、p值)。如果 trainingSummary 为 None ,则会抛出异常。
新增于版本 2.0.0。
-
tol= Param(parent='undefined', name='tol', doc='the convergence tolerance for iterative algorithms (>= 0).') ¶
-
variancePower: pyspark.ml.param.Param[float] = Param(parent='undefined', name='variancePower', doc='The power in the variance function of the Tweedie distribution which characterizes the relationship between the variance and mean of the distribution. Only applicable for the Tweedie family. Supported values: 0 and [1, Inf).') ¶
-
weightCol= Param(parent='undefined', name='weightCol', doc='weight column name. If this is not set or empty, we treat all instance weights as 1.0.') ¶
-