DataFrame

DataFrame.__getattr__ (名称)

返回由 Column 表示的 name

DataFrame.__getitem__ (项)

将列作为一个 Column 返回。

DataFrame.agg (*exprs)

在整个 DataFrame 上进行聚合,且没有分组( df.groupBy().agg() 的简写)。

DataFrame.alias (别名)

返回一个新的 DataFrame ,并设置一个别名。

DataFrame.approxQuantile (列, 概率, …)

计算一个 DataFrame 的数值列的近似分位数。

DataFrame.cache ()

DataFrame 持久化到默认存储级别( MEMORY_AND_DISK_DESER )。

DataFrame.checkpoint ([eager])

返回此 DataFrame 的检查点版本。

DataFrame.coalesce (分区数)

返回一个新的 DataFrame ,它恰好有 numPartitions 个分区。

DataFrame.colRegex (列名)

根据指定为正则表达式的列名选择列,并将其作为 Column 返回。

DataFrame.collect ()

返回所有记录作为一个 Row 的列表。

DataFrame.columns

检索 DataFrame 中所有列的名称,返回一个列表。

DataFrame.corr (col1, col2[, method])

计算两个 DataFrame 列之间的相关性,返回一个双精度值。

DataFrame.count ()

返回此 DataFrame 中的行数。

DataFrame.cov (列1, 列2)

计算给定列的样本协方差,按名称指定,以双精度值表示。

DataFrame.createGlobalTempView (名称)

使用这个 DataFrame 创建一个全局临时视图。

DataFrame.createOrReplaceGlobalTempView (名称)

使用给定名称创建或替换全局临时视图。

DataFrame.createOrReplaceTempView (名称)

使用这个 DataFrame 创建或替换一个本地临时视图。

DataFrame.createTempView (名称)

使用此 DataFrame 创建一个本地临时视图。

DataFrame.crossJoin (其他)

返回与另一个 DataFrame 的笛卡尔积。

DataFrame.crosstab (col1, col2)

计算给定列的成对频率表。

DataFrame.cube (*列)

为当前的 DataFrame 创建一个多维立方体,使用指定的列,以便我们可以对它们进行聚合运算。

DataFrame.describe (*列)

计算数值和字符串列的基本统计信息。

DataFrame.distinct ()

返回一个新的 DataFrame ,包含此 DataFrame 中不同的行。

DataFrame.drop (*列)

返回一个新的 DataFrame ,不包含指定的列。

DataFrame.dropDuplicates ([subset])

返回一个新的 DataFrame ,删除重复行,可选择仅考虑某些列。

DataFrame.dropDuplicatesWithinWatermark ([subset])

返回一个新 DataFrame ,去除重复的行,

DataFrame.drop_duplicates ([subset])

drop_duplicates() dropDuplicates() 的别名。

DataFrame.dropna ([如何, 阈值, 子集])

返回一个新的 DataFrame ,省略包含空值的行。

DataFrame.dtypes

返回所有列名及其数据类型的列表。

DataFrame.exceptAll (其他)

返回一个新的 DataFrame ,包含该 DataFrame 中的行,但不包含另一个 DataFrame 中的行,同时保留重复项。

DataFrame.explain ([扩展, 模式])

将(逻辑和物理)计划打印到控制台以便于调试。

DataFrame.fillna (值[, 子集])

替换空值, na.fill() 的别名。

DataFrame.filter (条件)

使用给定条件过滤行。

DataFrame.first ()

返回第一行作为一个 Row

DataFrame.foreach (f)

f 函数应用于此 Row 的所有 DataFrame

DataFrame.foreachPartition (f)

f 函数应用于此 DataFrame 的每个分区。

DataFrame.freqItems (列[, 支持])

为列查找频繁项,可能会出现误报。

DataFrame.groupBy (*cols)

使用指定的列对 DataFrame 进行分组,以便我们可以对其进行聚合。

DataFrame.head ([n])

返回前 n 行。

DataFrame.hint (名称, *参数)

指定当前 DataFrame 的一些提示。

DataFrame.inputFiles ()

返回构成此 DataFrame 的文件的尽力快照。

DataFrame.intersect (其他)

返回一个新的 DataFrame ,其中只包含在此 DataFrame 和另一个 DataFrame 中的行。

DataFrame.intersectAll (其他)

返回一个新的 DataFrame ,包含此 DataFrame 和另一个 DataFrame 的行,同时保留重复项。

DataFrame.isEmpty ()

检查 DataFrame 是否为空,并返回一个布尔值。

DataFrame.isLocal ()

如果 collect() take() 方法可以在本地运行(没有任何 Spark 执行器),则返回 True

DataFrame.isStreaming

如果这个 DataFrame 包含一个或多个不断返回数据的源,则返回 True

DataFrame.join (其他[, 在, 如何])

与另一个 DataFrame 进行联接,使用给定的联接表达式。

DataFrame.limit (数量)

将结果数量限制为指定的数量。

DataFrame.localCheckpoint ([eager])

返回一个本地检查点版本的 DataFrame

DataFrame.mapInPandas (func, schema[, barrier])

将当前的 DataFrame 中的批次迭代器映射到一个使用Python本地函数的结果,该函数接受并输出一个pandas DataFrame,并返回结果作为一个 DataFrame

DataFrame.mapInArrow (func, schema[, barrier])

映射当前 DataFrame 的批次迭代器,使用一个接受和输出 PyArrow 的 RecordBatch 的 Python 原生函数,并将结果作为 DataFrame 返回。

DataFrame.melt (ids, values, …)

将数据框从宽格式转换为长格式,选项上可以保留标识符列。

DataFrame.na

返回一个 DataFrameNaFunctions 用于处理缺失值。

DataFrame.observe (观察, *表达式)

定义(命名)指标以在DataFrame上观察。

DataFrame.offset (num)

通过跳过前 n 行返回一个新的 :class: DataFrame

DataFrame.orderBy (*列, **关键字参数)

返回一个新的 DataFrame ,按照指定的列进行排序。

DataFrame.persist ([storageLevel])

设置存储级别,以在第一次计算后在操作之间持久化 DataFrame 的内容。

DataFrame.printSchema ([level])

以树形格式打印架构。

DataFrame.randomSplit (权重[, 种子])

随机地根据提供的权重拆分这个 DataFrame

DataFrame.rdd

将内容作为一个 pyspark.RDD Row 返回。

DataFrame.registerTempTable (名称)

使用给定名称将此 DataFrame 注册为临时表。

DataFrame.repartition (分区数, *列)

返回一个新的 DataFrame ,按照给定的分区表达式进行分区。

DataFrame.repartitionByRange (分区数, …)

返回一个新的 DataFrame ,按照给定的分区表达式进行分区。

DataFrame.replace (待替换[, 值, 子集])

返回一个新的 DataFrame ,用另一个值替换一个值。

DataFrame.rollup (*列)

为当前 DataFrame 创建一个多维汇总,使用指定的列,以便我们可以对它们进行聚合。

DataFrame.sameSemantics (其他)

当两个 DataFrame 内部的逻辑查询计划相等时,返回 True ,因此返回相同的结果。

DataFrame.sample ([withReplacement, …])

返回此 DataFrame 的一个抽样子集。

DataFrame.sampleBy (col, fractions[, seed])

根据每个层次给定的比例返回一个无放回的分层样本。

DataFrame.schema

返回这个 DataFrame 的模式,作为一个 pyspark.sql.types.StructType

DataFrame.select (*列)

投影一组表达式并返回一个新的 DataFrame

DataFrame.selectExpr (*表达式)

投影一组SQL表达式并返回一个新的 DataFrame

DataFrame.semanticHash ()

返回此 DataFrame 的逻辑查询计划的哈希码。

DataFrame.show ([n, truncate, vertical])

将前 n 行打印到控制台。

DataFrame.sort (*列, **关键字参数)

返回一个新的 DataFrame ,按照指定的列进行排序。

DataFrame.sortWithinPartitions (*列, **关键字参数)

返回一个新的 DataFrame ,每个分区根据指定的列进行排序。

DataFrame.sparkSession

返回创建此 DataFrame 的 Spark 会话。

DataFrame.stat

返回一个 DataFrameStatFunctions 用于统计函数。

DataFrame.storageLevel

获取 DataFrame 的当前存储级别。

DataFrame.subtract (其他)

返回一个新的 DataFrame ,包含此 DataFrame 中的行,但不包含在另一个 DataFrame 中。

DataFrame.summary (*统计)

计算指定的统计信息,用于数值和字符串列。

DataFrame.tail (个数)

返回最后 num 行作为 list Row

DataFrame.take (数量)

返回前 num 行作为 list Row

DataFrame.to (模式)

返回一个新的 DataFrame ,其中每一行都与指定的架构相匹配。

DataFrame.toDF (*列)

返回一个新的 DataFrame ,具有新的指定列名

DataFrame.toJSON ([use_unicode])

将一个 DataFrame 转换为一个 RDD 字符串。

DataFrame.toLocalIterator ([prefetchPartitions])

返回一个迭代器,其中包含此 DataFrame 中的所有行。

DataFrame.toPandas ()

返回此 DataFrame 的内容作为 Pandas pandas.DataFrame

DataFrame.to_pandas_on_spark ([index_col])

DataFrame.transform (函数, *参数, **关键字参数)

返回一个新的 DataFrame .

DataFrame.union (其他)

返回一个新的 DataFrame ,包含此和另一个 DataFrame 中行的并集。

DataFrame.unionAll (其他)

返回一个新的 DataFrame ,包含本行和另一个 DataFrame 中行的并集。

DataFrame.unionByName (其他[, …])

返回一个新的 DataFrame ,包含此和另一个 DataFrame 的行的并集。

DataFrame.unpersist ([阻塞])

DataFrame 标记为非持久化,并从内存和磁盘中移除它的所有块。

DataFrame.unpivot (ids, values, …)

将数据框从宽格式转换为长格式,选项上可以保留标识符列。

DataFrame.where (条件)

where() filter() 的别名。

DataFrame.withColumn (列名, 列)

通过添加一列或替换具有相同名称的现有列,返回一个新的 DataFrame

DataFrame.withColumns (*colsMap)

通过添加多个列或替换具有相同名称的现有列,返回一个新的 DataFrame

DataFrame.withColumnRenamed (现有, 新)

通过重命名现有列返回一个新的 DataFrame

DataFrame.withColumnsRenamed (列映射)

通过重命名多个列返回一个新的 DataFrame

DataFrame.withMetadata (列名, 元数据)

通过更新现有列的元数据返回一个新的 DataFrame

DataFrame.withWatermark (事件时间, …)

为这个 DataFrame 定义事件时间水印。

DataFrame.write

接口用于将非流式 DataFrame 的内容保存到外部存储中。

DataFrame.writeStream

接口用于将流式 DataFrame 的内容保存到外部存储。

DataFrame.writeTo (表)

为v2源创建一个写入配置构建器。

DataFrame.pandas_api ([index_col])

将现有的DataFrame转换为pandas-on-Spark DataFrame。

DataFrameNaFunctions.drop ([如何, 阈值, 子集])

返回一个新的 DataFrame ,省略包含空值的行。

DataFrameNaFunctions.fill (值[, 子集])

替换空值, na.fill() 的别名。

DataFrameNaFunctions.replace (要替换的值[, …])

返回一个新的 DataFrame ,用另一个值替换一个值。

DataFrameStatFunctions.approxQuantile (列, …)

计算一个 DataFrame 的数值列的近似分位数。

DataFrameStatFunctions.corr (col1, col2[, method])

计算两个 DataFrame 列之间的相关性,返回一个双精度值。

DataFrameStatFunctions.cov (col1, col2)

计算给定列的样本协方差,按名称指定,以双精度值表示。

DataFrameStatFunctions.crosstab (col1, col2)

计算给定列的成对频率表。

DataFrameStatFunctions.freqItems (列[, 支持])

为列查找频繁项,可能会出现误报。

DataFrameStatFunctions.sampleBy (列, 比例)

根据每个层次给定的比例返回一个无放回的分层样本。