DataFrame ¶

`DataFrame.__getattr__` (名称)	返回由 `Column` 表示的 `name` 。
`DataFrame.__getitem__` (项)	将列作为一个 `Column` 返回。
`DataFrame.agg` (*exprs)	在整个 `DataFrame` 上进行聚合，且没有分组（ `df.groupBy().agg()` 的简写）。
`DataFrame.alias` (别名)	返回一个新的 `DataFrame` ，并设置一个别名。
`DataFrame.approxQuantile` (列, 概率, …)	计算一个 `DataFrame` 的数值列的近似分位数。
`DataFrame.cache` ()	将 `DataFrame` 持久化到默认存储级别（ MEMORY_AND_DISK_DESER ）。
`DataFrame.checkpoint` ([eager])	返回此 `DataFrame` 的检查点版本。
`DataFrame.coalesce` (分区数)	返回一个新的 `DataFrame` ，它恰好有 numPartitions 个分区。
`DataFrame.colRegex` (列名)	根据指定为正则表达式的列名选择列，并将其作为 `Column` 返回。
`DataFrame.collect` ()	返回所有记录作为一个 `Row` 的列表。
`DataFrame.columns`	检索 `DataFrame` 中所有列的名称，返回一个列表。
`DataFrame.corr` (col1, col2[, method])	计算两个 `DataFrame` 列之间的相关性，返回一个双精度值。
`DataFrame.count` ()	返回此 `DataFrame` 中的行数。
`DataFrame.cov` (列1, 列2)	计算给定列的样本协方差，按名称指定，以双精度值表示。
`DataFrame.createGlobalTempView` (名称)	使用这个 `DataFrame` 创建一个全局临时视图。
`DataFrame.createOrReplaceGlobalTempView` (名称)	使用给定名称创建或替换全局临时视图。
`DataFrame.createOrReplaceTempView` (名称)	使用这个 `DataFrame` 创建或替换一个本地临时视图。
`DataFrame.createTempView` (名称)	使用此 `DataFrame` 创建一个本地临时视图。
`DataFrame.crossJoin` (其他)	返回与另一个 `DataFrame` 的笛卡尔积。
`DataFrame.crosstab` (col1, col2)	计算给定列的成对频率表。
`DataFrame.cube` (*列)	为当前的 `DataFrame` 创建一个多维立方体，使用指定的列，以便我们可以对它们进行聚合运算。
`DataFrame.describe` (*列)	计算数值和字符串列的基本统计信息。
`DataFrame.distinct` ()	返回一个新的 `DataFrame` ，包含此 `DataFrame` 中不同的行。
`DataFrame.drop` (*列)	返回一个新的 `DataFrame` ，不包含指定的列。
`DataFrame.dropDuplicates` ([subset])	返回一个新的 `DataFrame` ，删除重复行，可选择仅考虑某些列。
`DataFrame.dropDuplicatesWithinWatermark` ([subset])	返回一个新 `DataFrame` ，去除重复的行，
`DataFrame.drop_duplicates` ([subset])	`drop_duplicates()` 是 `dropDuplicates()` 的别名。
`DataFrame.dropna` ([如何, 阈值, 子集])	返回一个新的 `DataFrame` ，省略包含空值的行。
`DataFrame.dtypes`	返回所有列名及其数据类型的列表。
`DataFrame.exceptAll` (其他)	返回一个新的 `DataFrame` ，包含该 `DataFrame` 中的行，但不包含另一个 `DataFrame` 中的行，同时保留重复项。
`DataFrame.explain` ([扩展, 模式])	将（逻辑和物理）计划打印到控制台以便于调试。
`DataFrame.fillna` (值[, 子集])	替换空值， `na.fill()` 的别名。
`DataFrame.filter` (条件)	使用给定条件过滤行。
`DataFrame.first` ()	返回第一行作为一个 `Row` 。
`DataFrame.foreach` (f)	将 `f` 函数应用于此 `Row` 的所有 `DataFrame` 。
`DataFrame.foreachPartition` (f)	将 `f` 函数应用于此 `DataFrame` 的每个分区。
`DataFrame.freqItems` (列[, 支持])	为列查找频繁项，可能会出现误报。
`DataFrame.groupBy` (*cols)	使用指定的列对 `DataFrame` 进行分组，以便我们可以对其进行聚合。
`DataFrame.head` ([n])	返回前 `n` 行。
`DataFrame.hint` (名称, *参数)	指定当前 `DataFrame` 的一些提示。
`DataFrame.inputFiles` ()	返回构成此 `DataFrame` 的文件的尽力快照。
`DataFrame.intersect` (其他)	返回一个新的 `DataFrame` ，其中只包含在此 `DataFrame` 和另一个 `DataFrame` 中的行。
`DataFrame.intersectAll` (其他)	返回一个新的 `DataFrame` ，包含此 `DataFrame` 和另一个 `DataFrame` 的行，同时保留重复项。
`DataFrame.isEmpty` ()	检查 `DataFrame` 是否为空，并返回一个布尔值。
`DataFrame.isLocal` ()	如果 `collect()` 和 `take()` 方法可以在本地运行（没有任何 Spark 执行器），则返回 `True` 。
`DataFrame.isStreaming`	如果这个 `DataFrame` 包含一个或多个不断返回数据的源，则返回 `True` 。
`DataFrame.join` (其他[, 在, 如何])	与另一个 `DataFrame` 进行联接，使用给定的联接表达式。
`DataFrame.limit` (数量)	将结果数量限制为指定的数量。
`DataFrame.localCheckpoint` ([eager])	返回一个本地检查点版本的 `DataFrame` 。
`DataFrame.mapInPandas` (func, schema[, barrier])	将当前的 `DataFrame` 中的批次迭代器映射到一个使用Python本地函数的结果，该函数接受并输出一个pandas DataFrame，并返回结果作为一个 `DataFrame` 。
`DataFrame.mapInArrow` (func, schema[, barrier])	映射当前 `DataFrame` 的批次迭代器，使用一个接受和输出 PyArrow 的 RecordBatch 的 Python 原生函数，并将结果作为 `DataFrame` 返回。
`DataFrame.melt` (ids, values, …)	将数据框从宽格式转换为长格式，选项上可以保留标识符列。
`DataFrame.na`	返回一个 `DataFrameNaFunctions` 用于处理缺失值。
`DataFrame.observe` (观察, *表达式)	定义（命名）指标以在DataFrame上观察。
`DataFrame.offset` (num)	通过跳过前 n 行返回一个新的 :class: DataFrame 。
`DataFrame.orderBy` (列, *关键字参数)	返回一个新的 `DataFrame` ，按照指定的列进行排序。
`DataFrame.persist` ([storageLevel])	设置存储级别，以在第一次计算后在操作之间持久化 `DataFrame` 的内容。
`DataFrame.printSchema` ([level])	以树形格式打印架构。
`DataFrame.randomSplit` (权重[, 种子])	随机地根据提供的权重拆分这个 `DataFrame` 。
`DataFrame.rdd`	将内容作为一个 `pyspark.RDD` 的 `Row` 返回。
`DataFrame.registerTempTable` (名称)	使用给定名称将此 `DataFrame` 注册为临时表。
`DataFrame.repartition` (分区数, *列)	返回一个新的 `DataFrame` ，按照给定的分区表达式进行分区。
`DataFrame.repartitionByRange` (分区数, …)	返回一个新的 `DataFrame` ，按照给定的分区表达式进行分区。
`DataFrame.replace` (待替换[, 值, 子集])	返回一个新的 `DataFrame` ，用另一个值替换一个值。
`DataFrame.rollup` (*列)	为当前 `DataFrame` 创建一个多维汇总，使用指定的列，以便我们可以对它们进行聚合。
`DataFrame.sameSemantics` (其他)	当两个 `DataFrame` 内部的逻辑查询计划相等时，返回 True ，因此返回相同的结果。
`DataFrame.sample` ([withReplacement, …])	返回此 `DataFrame` 的一个抽样子集。
`DataFrame.sampleBy` (col, fractions[, seed])	根据每个层次给定的比例返回一个无放回的分层样本。
`DataFrame.schema`	返回这个 `DataFrame` 的模式，作为一个 `pyspark.sql.types.StructType` 。
`DataFrame.select` (*列)	投影一组表达式并返回一个新的 `DataFrame` 。
`DataFrame.selectExpr` (*表达式)	投影一组SQL表达式并返回一个新的 `DataFrame` 。
`DataFrame.semanticHash` ()	返回此 `DataFrame` 的逻辑查询计划的哈希码。
`DataFrame.show` ([n, truncate, vertical])	将前 `n` 行打印到控制台。
`DataFrame.sort` (列, *关键字参数)	返回一个新的 `DataFrame` ，按照指定的列进行排序。
`DataFrame.sortWithinPartitions` (列， *关键字参数)	返回一个新的 `DataFrame` ，每个分区根据指定的列进行排序。
`DataFrame.sparkSession`	返回创建此 `DataFrame` 的 Spark 会话。
`DataFrame.stat`	返回一个 `DataFrameStatFunctions` 用于统计函数。
`DataFrame.storageLevel`	获取 `DataFrame` 的当前存储级别。
`DataFrame.subtract` (其他)	返回一个新的 `DataFrame` ，包含此 `DataFrame` 中的行，但不包含在另一个 `DataFrame` 中。
`DataFrame.summary` (*统计)	计算指定的统计信息，用于数值和字符串列。
`DataFrame.tail` (个数)	返回最后 `num` 行作为 `list` 的 `Row` 。
`DataFrame.take` (数量)	返回前 `num` 行作为 `list` 的 `Row` 。
`DataFrame.to` (模式)	返回一个新的 `DataFrame` ，其中每一行都与指定的架构相匹配。
`DataFrame.toDF` (*列)	返回一个新的 `DataFrame` ，具有新的指定列名
`DataFrame.toJSON` ([use_unicode])	将一个 `DataFrame` 转换为一个 `RDD` 字符串。
`DataFrame.toLocalIterator` ([prefetchPartitions])	返回一个迭代器，其中包含此 `DataFrame` 中的所有行。
`DataFrame.toPandas` ()	返回此 `DataFrame` 的内容作为 Pandas `pandas.DataFrame` 。
`DataFrame.to_pandas_on_spark` ([index_col])
`DataFrame.transform` (函数, 参数, *关键字参数)	返回一个新的 `DataFrame` .
`DataFrame.union` (其他)	返回一个新的 `DataFrame` ，包含此和另一个 `DataFrame` 中行的并集。
`DataFrame.unionAll` (其他)	返回一个新的 `DataFrame` ，包含本行和另一个 `DataFrame` 中行的并集。
`DataFrame.unionByName` (其他[, …])	返回一个新的 `DataFrame` ，包含此和另一个 `DataFrame` 的行的并集。
`DataFrame.unpersist` ([阻塞])	将 `DataFrame` 标记为非持久化，并从内存和磁盘中移除它的所有块。
`DataFrame.unpivot` (ids, values, …)	将数据框从宽格式转换为长格式，选项上可以保留标识符列。
`DataFrame.where` (条件)	`where()` 是 `filter()` 的别名。
`DataFrame.withColumn` (列名, 列)	通过添加一列或替换具有相同名称的现有列，返回一个新的 `DataFrame` 。
`DataFrame.withColumns` (*colsMap)	通过添加多个列或替换具有相同名称的现有列，返回一个新的 `DataFrame` 。
`DataFrame.withColumnRenamed` (现有, 新)	通过重命名现有列返回一个新的 `DataFrame` 。
`DataFrame.withColumnsRenamed` (列映射)	通过重命名多个列返回一个新的 `DataFrame` 。
`DataFrame.withMetadata` (列名, 元数据)	通过更新现有列的元数据返回一个新的 `DataFrame` 。
`DataFrame.withWatermark` (事件时间, …)	为这个 `DataFrame` 定义事件时间水印。
`DataFrame.write`	接口用于将非流式 `DataFrame` 的内容保存到外部存储中。
`DataFrame.writeStream`	接口用于将流式 `DataFrame` 的内容保存到外部存储。
`DataFrame.writeTo` (表)	为v2源创建一个写入配置构建器。
`DataFrame.pandas_api` ([index_col])	将现有的DataFrame转换为pandas-on-Spark DataFrame。
`DataFrameNaFunctions.drop` ([如何, 阈值, 子集])	返回一个新的 `DataFrame` ，省略包含空值的行。
`DataFrameNaFunctions.fill` (值[, 子集])	替换空值， `na.fill()` 的别名。
`DataFrameNaFunctions.replace` (要替换的值[, …])	返回一个新的 `DataFrame` ，用另一个值替换一个值。
`DataFrameStatFunctions.approxQuantile` (列, …)	计算一个 `DataFrame` 的数值列的近似分位数。
`DataFrameStatFunctions.corr` (col1, col2[, method])	计算两个 `DataFrame` 列之间的相关性，返回一个双精度值。
`DataFrameStatFunctions.cov` (col1, col2)	计算给定列的样本协方差，按名称指定，以双精度值表示。
`DataFrameStatFunctions.crosstab` (col1, col2)	计算给定列的成对频率表。
`DataFrameStatFunctions.freqItems` (列[, 支持])	为列查找频繁项，可能会出现误报。
`DataFrameStatFunctions.sampleBy` (列, 比例)	根据每个层次给定的比例返回一个无放回的分层样本。

上一个

pyspark.sql.DataFrameWriterV2.覆盖分区

下一步

pyspark.sql.DataFrame.__getattr__