Word2VecModel ¶
-
class
pyspark.ml.feature.Word2VecModel( java_model : Optional [ JavaObject ] = None ) [source] ¶ -
由
Word2Vec拟合的模型。新增于版本 1.4.0。
方法
clear(param)如果参数已明确设置,则从参数映射中清除该参数。
copy([extra])创建此实例的副本,具有相同的uid和一些额外的参数。
explainParam(参数)解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
extractParamMap([extra])提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
findSynonyms(词, 数量)找到与“word”相似度最接近的“num”个单词。
findSynonymsArray(词, 数量)找到与“word”相似度最高的“num”个单词。
getInputCol()获取inputCol的值或其默认值。
getMaxIter()获取maxIter的值或其默认值。
获取 maxSentenceLength 的值或其默认值。
getMinCount()获取 minCount 的值或其默认值。
获取numPartitions的值或其默认值。
getOrDefault(参数)获取用户提供的参数映射中的参数值或其默认值。
getOutputCol()获取outputCol的值或其默认值。
getParam(paramName)根据名称获取参数。
getSeed()获取种子值或其默认值。
getStepSize()获取 stepSize 的值或其默认值。
获取vectorSize的值或其默认值。
getVectors()返回单词的向量表示形式,作为一个包含两个字段(word 和 vector)的数据框。
获取 windowSize 的值或其默认值。
hasDefault(参数)检查参数是否具有默认值。
hasParam(paramName)测试此实例是否包含具有给定(字符串)名称的参数。
isDefined(参数)检查参数是否由用户显式设置或具有默认值。
isSet(参数)检查参数是否被用户显式设置。
load(路径)从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
read()返回此类的一个 MLReader 实例。
save(路径)将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
set(参数, 值)在嵌入的参数映射中设置一个参数。
setInputCol(值)设置
inputCol的值。setOutputCol(值)设置
outputCol的值。transform(数据集[, 参数])使用可选参数转换输入数据集。
write()返回此ML实例的MLWriter实例。
属性
返回按名称排序的所有参数。
方法文档
-
clear( param : pyspark.ml.param.Param ) → None ¶ -
如果参数已明确设置,则从参数映射中清除该参数。
-
copy( extra : Optional [ ParamMap ] = None ) → JP ¶ -
创建此实例的副本,具有相同的uid和一些额外的参数。此实现首先调用Params.copy,然后使用额外参数复制伴随的Java管道组件。因此,Python包装器和Java管道组件都会被复制。
- Parameters
-
- extra dict, optional
-
复制到新实例的额外参数
- Returns
-
-
JavaParams -
此实例的副本
-
-
explainParam( param : Union [ str , pyspark.ml.param.Param ] ) → str ¶ -
解释单个参数并返回其名称、文档以及可选的默认值和用户提供的值的字符串。
-
explainParams( ) → str ¶ -
返回所有参数的文档,包括它们可选的默认值和用户提供的值。
-
extractParamMap( extra : Optional [ ParamMap ] = None ) → ParamMap ¶ -
提取嵌入的默认参数值和用户提供的值,然后将它们与输入中的额外值合并到一个扁平的参数映射中,如果存在冲突,则使用后者的值,即顺序为:默认参数值 < 用户提供的值 < 额外值。
- Parameters
-
- extra dict, optional
-
额外参数值
- Returns
-
- dict
-
合并的参数映射
-
findSynonyms( word : Union [ str , pyspark.ml.linalg.Vector ] , num : int ) → pyspark.sql.dataframe.DataFrame [source] ¶ -
查找与“word”最相似的“num”个单词。 word 可以是字符串或向量表示。 返回一个包含两个字段 word 和 similarity(表示余弦相似度)的数据框。
新增于版本 1.5.0。
-
findSynonymsArray( word : Union [ pyspark.ml.linalg.Vector , str ] , num : int ) → List [ Tuple [ str , float ] ] [source] ¶ -
查找与“word”最相似的“num”个单词。 word 可以是字符串或向量表示。 返回一个包含两个字段 word 和 similarity 的数组(其中 similarity 表示余弦相似度)。
新增于版本 2.3.0。
-
getInputCol( ) → str ¶ -
获取inputCol的值或其默认值。
-
getMaxIter( ) → int ¶ -
获取maxIter的值或其默认值。
-
getMaxSentenceLength( ) → int ¶ -
获取 maxSentenceLength 的值或其默认值。
新增于版本 2.0.0。
-
getMinCount( ) → int ¶ -
获取 minCount 的值或其默认值。
新增于版本 1.4.0。
-
getNumPartitions( ) → int ¶ -
获取numPartitions的值或其默认值。
新增于版本 1.4.0。
-
getOrDefault( param : Union [ str , pyspark.ml.param.Param [ T ] ] ) → Union [ Any , T ] ¶ -
获取用户提供的参数映射中的参数值或其默认值。如果两者都未设置,则引发错误。
-
getOutputCol( ) → str ¶ -
获取outputCol的值或其默认值。
-
getParam( paramName : str ) → pyspark.ml.param.Param ¶ -
根据名称获取参数。
-
getSeed( ) → int ¶ -
获取种子值或其默认值。
-
getStepSize( ) → float ¶ -
获取 stepSize 的值或其默认值。
-
getVectorSize( ) → int ¶ -
获取vectorSize的值或其默认值。
新增于版本 1.4.0。
-
getVectors( ) → pyspark.sql.dataframe.DataFrame [source] ¶ -
返回单词的向量表示形式作为一个数据框,包含两个字段:word 和 vector。
新增于版本 1.5.0。
-
getWindowSize( ) → int ¶ -
获取 windowSize 的值或其默认值。
新增于版本 2.0.0。
-
hasDefault( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否具有默认值。
-
hasParam( paramName : str ) → bool ¶ -
测试此实例是否包含具有给定(字符串)名称的参数。
-
isDefined( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否由用户显式设置或具有默认值。
-
isSet( param : Union [ str , pyspark.ml.param.Param [ Any ] ] ) → bool ¶ -
检查参数是否被用户显式设置。
-
classmethod
load( path : str ) → RL ¶ -
从输入路径读取一个ML实例,是 read().load(path) 的快捷方式。
-
classmethod
read( ) → pyspark.ml.util.JavaMLReader [ RL ] ¶ -
返回此类的一个 MLReader 实例。
-
save( path : str ) → None ¶ -
将此 ML 实例保存到给定路径,是 ‘write().save(path)’ 的快捷方式。
-
set( param : pyspark.ml.param.Param , value : Any ) → None ¶ -
在嵌入的参数映射中设置一个参数。
-
setInputCol( value : str ) → pyspark.ml.feature.Word2VecModel [source] ¶ -
设置
inputCol的值。
-
setOutputCol( value : str ) → pyspark.ml.feature.Word2VecModel [source] ¶ -
设置
outputCol的值。
-
transform( dataset : pyspark.sql.dataframe.DataFrame , params : Optional [ ParamMap ] = None ) → pyspark.sql.dataframe.DataFrame ¶ -
使用可选参数转换输入数据集。
新增于版本 1.3.0。
- Parameters
-
-
dataset
pyspark.sql.DataFrame -
输入数据集
- params dict, optional
-
一个可选的参数映射,用于覆盖嵌入的参数。
-
dataset
- Returns
-
-
pyspark.sql.DataFrame -
转换后的数据集
-
-
write( ) → pyspark.ml.util.JavaMLWriter ¶ -
返回此ML实例的MLWriter实例。
属性文档
-
inputCol= Param(parent='undefined', name='inputCol', doc='input column name.') ¶
-
maxIter= Param(parent='undefined', name='maxIter', doc='max number of iterations (>= 0).') ¶
-
maxSentenceLength: pyspark.ml.param.Param[int] = Param(parent='undefined', name='maxSentenceLength', doc='Maximum length (in words) of each sentence in the input data. Any sentence longer than this threshold will be divided into chunks up to the size.') ¶
-
minCount: pyspark.ml.param.Param[int] = Param(parent='undefined', name='minCount', doc="the minimum number of times a token must appear to be included in the word2vec model's vocabulary") ¶
-
numPartitions: pyspark.ml.param.Param[int] = Param(parent='undefined', name='numPartitions', doc='number of partitions for sentences of words') ¶
-
outputCol= Param(parent='undefined', name='outputCol', doc='output column name.') ¶
-
params¶ -
返回按名称排序的所有参数。默认实现使用
dir()获取所有类型为Param的属性。
-
seed= Param(parent='undefined', name='seed', doc='random seed.') ¶
-
stepSize= Param(parent='undefined', name='stepSize', doc='Step size to be used for each iteration of optimization (>= 0).') ¶
-
vectorSize: pyspark.ml.param.Param[int] = Param(parent='undefined', name='vectorSize', doc='the dimension of codes after transforming from words') ¶
-
windowSize: pyspark.ml.param.Param[int] = Param(parent='undefined', name='windowSize', doc='the window size (context words from [-window, window]). Default value is 5') ¶
-