GeneralizedLinearRegressionModel ¶

class pyspark.ml.regression. GeneralizedLinearRegressionModel ( java_model : Optional [ JavaObject ] = None ) [source] ¶

由 GeneralizedLinearRegression 拟合的模型。

新增于版本 2.0.0。

方法

`clear` (参数)	如果参数已明确设置，则从参数映射中清除该参数。
`copy` ([extra])	创建此实例的副本，具有相同的uid和一些额外的参数。
`evaluate` (数据集)	在测试数据集上评估模型。
`explainParam` (参数)	解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
`explainParams` ()	返回所有参数的文档，包括它们可选的默认值和用户提供的值。
`extractParamMap` ([extra])	提取嵌入的默认参数值和用户提供的值，然后将它们与输入中的额外值合并到一个扁平的参数映射中，如果存在冲突，则使用后者的值，即顺序为：默认参数值 < 用户提供的值 < 额外值。
`getAggregationDepth` ()	获取aggregationDepth的值或其默认值。
`getFamily` ()	获取 family 的值或其默认值。
`getFeaturesCol` ()	获取featuresCol的值或其默认值。
`getFitIntercept` ()	获取fitIntercept的值或其默认值。
`getLabelCol` ()	获取 labelCol 的值或其默认值。
`getLink` ()	获取链接的值或其默认值。
`getLinkPower` ()	获取 linkPower 的值或其默认值。
`getLinkPredictionCol` ()	获取linkPredictionCol的值或其默认值。
`getMaxIter` ()	获取maxIter的值或其默认值。
`getOffsetCol` ()	获取offsetCol的值或其默认值。
`getOrDefault` (参数)	获取用户提供的参数映射中的参数值或其默认值。
`getParam` (paramName)	根据名称获取参数。
`getPredictionCol` ()	获取 predictionCol 的值或其默认值。
`getRegParam` ()	获取regParam的值或其默认值。
`getSolver` ()	获取solver的值或其默认值。
`getTol` ()	获取tol的值或其默认值。
`getVariancePower` ()	获取variancePower的值或其默认值。
`getWeightCol` ()	获取 weightCol 的值或其默认值。
`hasDefault` (参数)	检查参数是否具有默认值。
`hasParam` (paramName)	测试此实例是否包含具有给定（字符串）名称的参数。
`isDefined` (参数)	检查参数是否由用户显式设置或具有默认值。
`isSet` (参数)	检查参数是否被用户显式设置。
`load` (路径)	从输入路径读取一个ML实例，是 read().load(path) 的快捷方式。
`predict` (值)	预测给定特征的标签。
`读取` ()	返回此类的一个 MLReader 实例。
`save` (路径)	将此 ML 实例保存到给定路径，是 ‘write().save(path)’ 的快捷方式。
`set` (参数, 值)	在嵌入的参数映射中设置一个参数。
`setFeaturesCol` (值)	设置 `featuresCol` 的值。
`setLinkPredictionCol` (值)	设置 `linkPredictionCol` 的值。
`setPredictionCol` (值)	设置 `predictionCol` 的值。
`transform` (数据集[, 参数])	使用可选参数转换输入数据集。
`write` ()	返回此ML实例的MLWriter实例。

属性

`aggregationDepth`
`系数`	模型系数。
`family`
`featuresCol`
`fitIntercept`
`hasSummary`	指示此模型实例是否存在训练摘要。
`截距`	模型截距。
`labelCol`
`link`
`linkPower`
`linkPredictionCol`
`maxIter`
`numFeatures`	返回模型训练的特征数量。
`offsetCol`
`参数`	返回按名称排序的所有参数。
`predictionCol`
`regParam`
`solver`
`总结`	获取训练集上模型的摘要（残差、偏差、p值）。
`tol`
`variancePower`
`weightCol`

方法文档

clear ( param : pyspark.ml.param.Param ) → None ¶: 如果参数已明确设置，则从参数映射中清除该参数。

copy ( extra : Optional [ ParamMap ] = None ) → JP ¶

创建此实例的副本，具有相同的uid和一些额外的参数。此实现首先调用Params.copy，然后使用额外参数复制伴随的Java管道组件。因此，Python包装器和Java管道组件都会被复制。

Parameters

extra dict, optional: 复制到新实例的额外参数

Returns

JavaParams: 此实例的副本

evaluate ( dataset : pyspark.sql.dataframe.DataFrame ) → pyspark.ml.regression.GeneralizedLinearRegressionSummary [source] ¶

在测试数据集上评估模型。

新增于版本 2.0.0。

Parameters

dataset pyspark.sql.DataFrame: 用于评估模型的测试数据集，其中数据集是 pyspark.sql.DataFrame 的一个实例

explainParam ( param : Union [ str , pyspark.ml.param.Param ] ) → str ¶: 解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。

explainParams ( ) → str ¶: 返回所有参数的文档，包括它们可选的默认值和用户提供的值。

extractParamMap ( extra : Optional [ ParamMap ] = None ) → ParamMap ¶

提取嵌入的默认参数值和用户提供的值，然后将它们与输入中的额外值合并到一个扁平的参数映射中，如果存在冲突，则使用后者的值，即顺序为：默认参数值 < 用户提供的值 < 额外值。

Parameters

extra dict, optional: 额外参数值

Returns

dict: 合并的参数映射

getAggregationDepth ( ) → int ¶: 获取aggregationDepth的值或其默认值。

getFamily ( ) → str ¶: 获取 family 的值或其默认值。

新增于版本 2.0.0。

getFeaturesCol ( ) → str ¶: 获取featuresCol的值或其默认值。

getFitIntercept ( ) → bool ¶: 获取fitIntercept的值或其默认值。

getLabelCol ( ) → str ¶: 获取 labelCol 的值或其默认值。

getLink ( ) → str ¶: 获取链接的值或其默认值。

新增于版本 2.0.0。

getLinkPower ( ) → float ¶: 获取 linkPower 的值或其默认值。

新增于版本 2.2.0。

getLinkPredictionCol ( ) → str ¶: 获取linkPredictionCol的值或其默认值。

新增于版本 2.0.0。

getMaxIter ( ) → int ¶: 获取maxIter的值或其默认值。

getOffsetCol ( ) → str ¶: 获取offsetCol的值或其默认值。

新增于版本 2.3.0。

getOrDefault ( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ] ¶: 获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置，则引发错误。

getParam ( paramName : str ) → pyspark.ml.param.Param ¶: 根据名称获取参数。

getPredictionCol ( ) → str ¶: 获取 predictionCol 的值或其默认值。

getRegParam ( ) → float ¶: 获取regParam的值或其默认值。

getSolver ( ) → str ¶: 获取solver的值或其默认值。

getTol ( ) → float ¶: 获取tol的值或其默认值。

getVariancePower ( ) → float ¶: 获取variancePower的值或其默认值。

新增于版本 2.2.0。

getWeightCol ( ) → str ¶: 获取 weightCol 的值或其默认值。

hasDefault ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否具有默认值。

hasParam ( paramName : str ) → bool ¶: 测试此实例是否包含具有给定（字符串）名称的参数。

isDefined ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否由用户显式设置或具有默认值。

isSet ( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶: 检查参数是否被用户显式设置。

classmethod load ( path : str ) → RL ¶: 从输入路径读取一个ML实例，是 read().load(path) 的快捷方式。

predict ( value : T ) → float ¶: 预测给定特征的标签。

新增于版本 3.0.0。

classmethod read ( ) → pyspark.ml.util.JavaMLReader [ RL ] ¶: 返回此类的一个 MLReader 实例。

save ( path : str ) → None ¶: 将此 ML 实例保存到给定路径，是 ‘write().save(path)’ 的快捷方式。

set ( param : pyspark.ml.param.Param , value : Any ) → None ¶: 在嵌入的参数映射中设置一个参数。

setFeaturesCol ( value : str ) → P ¶: 设置 featuresCol 的值。

新增于版本 3.0.0。

setLinkPredictionCol ( value : str ) → pyspark.ml.regression.GeneralizedLinearRegressionModel [source] ¶: 设置 linkPredictionCol 的值。

新增于版本 3.0.0。

setPredictionCol ( value : str ) → P ¶: 设置 predictionCol 的值。

新增于版本 3.0.0。

transform ( dataset : pyspark.sql.dataframe.DataFrame , params : Optional [ ParamMap ] = None ) → pyspark.sql.dataframe.DataFrame ¶

使用可选参数转换输入数据集。

新增于版本 1.3.0。

Parameters

dataset pyspark.sql.DataFrame: 输入数据集
params dict, optional: 一个可选的参数映射，用于覆盖嵌入的参数。

Returns

pyspark.sql.DataFrame: 转换后的数据集

write ( ) → pyspark.ml.util.JavaMLWriter ¶: 返回此ML实例的MLWriter实例。

属性文档

aggregationDepth = Param(parent='undefined', name='aggregationDepth', doc='suggested depth for treeAggregate (>= 2).') ¶

coefficients ¶: 模型系数。

新增于版本 2.0.0。

family : pyspark.ml.param.Param[str] = Param(parent='undefined', name='family', doc='The name of family which is a description of the error distribution to be used in the model. Supported options: gaussian (default), binomial, poisson, gamma and tweedie.') ¶

featuresCol = Param(parent='undefined', name='featuresCol', doc='features column name.') ¶

fitIntercept = Param(parent='undefined', name='fitIntercept', doc='whether to fit an intercept term.') ¶

hasSummary ¶: 指示此模型实例是否存在训练摘要。

新增于版本 2.1.0。

intercept ¶: 模型截距。

新增于版本 2.0.0。

labelCol = Param(parent='undefined', name='labelCol', doc='label column name.') ¶

link : pyspark.ml.param.Param[str] = Param(parent='undefined', name='link', doc='The name of link function which provides the relationship between the linear predictor and the mean of the distribution function. Supported options: identity, log, inverse, logit, probit, cloglog and sqrt.') ¶

linkPower : pyspark.ml.param.Param[float] = Param(parent='undefined', name='linkPower', doc='The index in the power link function. Only applicable to the Tweedie family.') ¶

linkPredictionCol : pyspark.ml.param.Param[str] = Param(parent='undefined', name='linkPredictionCol', doc='link prediction (linear predictor) column name') ¶

maxIter = Param(parent='undefined', name='maxIter', doc='max number of iterations (>= 0).') ¶

numFeatures ¶: 返回模型训练的特征数量。如果未知，返回-1

新增于版本 2.1.0。

offsetCol : pyspark.ml.param.Param[str] = Param(parent='undefined', name='offsetCol', doc='The offset column name. If this is not set or empty, we treat all instance offsets as 0.0') ¶

params ¶: 返回按名称排序的所有参数。默认实现使用 dir() 获取所有类型为 Param 的属性。

predictionCol = Param(parent='undefined', name='predictionCol', doc='prediction column name.') ¶

regParam = Param(parent='undefined', name='regParam', doc='regularization parameter (>= 0).') ¶

solver : pyspark.ml.param.Param[str] = Param(parent='undefined', name='solver', doc='The solver algorithm for optimization. Supported options: irls.') ¶

summary ¶: 获取训练集上模型的摘要（残差、偏差、p值）。如果 trainingSummary 为 None ，则会抛出异常。

新增于版本 2.0.0。

tol = Param(parent='undefined', name='tol', doc='the convergence tolerance for iterative algorithms (>= 0).') ¶

variancePower : pyspark.ml.param.Param[float] = Param(parent='undefined', name='variancePower', doc='The power in the variance function of the Tweedie distribution which characterizes the relationship between the variance and mean of the distribution. Only applicable for the Tweedie family. Supported values: 0 and [1, Inf).') ¶

weightCol = Param(parent='undefined', name='weightCol', doc='weight column name. If this is not set or empty, we treat all instance weights as 1.0.') ¶

广义线性回归

广义线性回归摘要