DCT ¶
-
class
pyspark.ml.feature.DCT( * , inverse : bool = False , inputCol : Optional [ str ] = None , outputCol : Optional [ str ] = None ) [source] ¶ -
一个特征变换器,它对实数向量进行一维离散余弦变换。不对输入向量进行零填充。它返回一个与输入向量长度相同的实数向量,表示DCT。返回的向量经过缩放,使得变换矩阵是酉矩阵(即缩放的DCT-II)。
新增于版本 1.6.0。
注释
示例
>>> from pyspark.ml.linalg import Vectors >>> df1 = spark.createDataFrame([(Vectors.dense([5.0, 8.0, 6.0]),)], ["vec"]) >>> dct = DCT( ) >>> dct.setInverse(False) DCT... >>> dct.setInputCol("vec") DCT... >>> dct.setOutputCol("resultVec") DCT... >>> df2 = dct.transform(df1) >>> df2.head().resultVec DenseVector([10.969..., -0.707..., -2.041...]) >>> df3 = DCT(inverse=True, inputCol="resultVec", outputCol="origVec").transform(df2) >>> df3.head().origVec DenseVector([5.0, 8.0, 6.0]) >>> dctPath = temp_path + "/dct" >>> dct.save(dctPath) >>> loadedDtc = DCT.load(dctPath) >>> loadedDtc.transform(df1).take(1) == dct.transform(df1).take(1) True >>> loadedDtc.getInverse() False
方法
clear(参数)如果参数已明确设置,则从参数映射中清除该参数。
copy([extra])创建此实例的副本,具有相同的uid和一些额外的参数。
explainParam(参数)解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
extractParamMap([extra])提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
getInputCol()获取inputCol的值或其默认值。
getInverse()获取 inverse 的值或其默认值。
getOrDefault(参数)获取用户提供的参数映射中的参数值或其默认值。
getOutputCol()获取outputCol的值或其默认值。
getParam(paramName)根据名称获取参数。
hasDefault(参数)检查参数是否具有默认值。
hasParam(paramName)测试此实例是否包含具有给定(字符串)名称的参数。
isDefined(参数)检查参数是否由用户显式设置或具有默认值。
isSet(参数)检查参数是否被用户显式设置。
load(路径)从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
read()返回此类的一个 MLReader 实例。
save(路径)将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
设置(参数, 值)在嵌入的参数映射中设置一个参数。
setInputCol(值)设置
inputCol的值。setInverse(值)设置
inverse的值。setOutputCol(值)设置
outputCol的值。setParams(self, \*[, inverse, inputCol, …])设置此DCT的参数。
transform(数据集[, 参数])使用可选参数转换输入数据集。
write()返回此ML实例的MLWriter实例。
属性
返回按名称排序的所有参数。
方法文档
-
clear( param : pyspark.ml.param.Param ) → None ¶ -
如果参数已明确设置,则从参数映射中清除该参数。
-
copy( extra : Optional [ ParamMap ] = None ) → JP ¶ -
创建此实例的副本,具有相同的uid和一些额外的参数。此实现首先调用Params.copy,然后使用额外参数复制伴随的Java管道组件。因此,Python包装器和Java管道组件都会被复制。
- Parameters
-
- extra dict, optional
-
复制到新实例的额外参数
- Returns
-
-
JavaParams -
此实例的副本
-
-
explainParam( param : Union [ str , pyspark.ml.param.Param ] ) → str ¶ -
解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
-
explainParams( ) → str ¶ -
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
-
extractParamMap( extra : Optional [ ParamMap ] = None ) → ParamMap ¶ -
提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
- Parameters
-
- extra dict, optional
-
额外参数值
- Returns
-
- dict
-
合并的参数映射
-
getInputCol( ) → str ¶ -
获取inputCol的值或其默认值。
-
getOrDefault( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ] ¶ -
获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置,则引发错误。
-
getOutputCol( ) → str ¶ -
获取outputCol的值或其默认值。
-
getParam( paramName : str ) → pyspark.ml.param.Param ¶ -
根据名称获取参数。
-
hasDefault( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否具有默认值。
-
hasParam( paramName : str ) → bool ¶ -
测试此实例是否包含具有给定(字符串)名称的参数。
-
isDefined( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否由用户显式设置或具有默认值。
-
isSet( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否被用户显式设置。
-
classmethod
load( path : str ) → RL ¶ -
从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
-
classmethod
read( ) → pyspark.ml.util.JavaMLReader [ RL ] ¶ -
返回此类的一个 MLReader 实例。
-
save( path : str ) → None ¶ -
将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
-
set( param : pyspark.ml.param.Param , value : Any ) → None ¶ -
在嵌入的参数映射中设置一个参数。
-
setInputCol( value : str ) → pyspark.ml.feature.DCT [source] ¶ -
设置
inputCol的值。
-
setInverse( value : bool ) → pyspark.ml.feature.DCT [source] ¶ -
设置
inverse的值。新增于版本 1.6.0。
-
setOutputCol( value : str ) → pyspark.ml.feature.DCT [source] ¶ -
设置
outputCol的值。
-
setParams( self , \* , inverse=False , inputCol=None , outputCol=None ) [source] ¶ -
设置此DCT的参数。
新增于版本 1.6.0。
-
transform( dataset : pyspark.sql.dataframe.DataFrame , params : Optional [ ParamMap ] = None ) → pyspark.sql.dataframe.DataFrame ¶ -
使用可选参数转换输入数据集。
新增于版本 1.3.0。
- Parameters
-
-
dataset
pyspark.sql.DataFrame -
输入数据集
- params dict, optional
-
一个可选的参数映射,用于覆盖嵌入的参数。
-
dataset
- Returns
-
-
pyspark.sql.DataFrame -
转换后的数据集
-
-
write( ) → pyspark.ml.util.JavaMLWriter ¶ -
返回此ML实例的MLWriter实例。
属性文档
-
inputCol= Param(parent='undefined', name='inputCol', doc='input column name.') ¶
-
inverse: pyspark.ml.param.Param[bool] = Param(parent='undefined', name='inverse', doc='Set transformer to perform inverse DCT, default False.') ¶
-
outputCol= Param(parent='undefined', name='outputCol', doc='output column name.') ¶
-
params¶ -
返回按名称排序的所有参数。默认实现使用
dir()获取所有类型为Param的属性。
-