pyspark.sql.DataFrame.pandas_api ¶

DataFrame. pandas_api ( index_col : Union[str, List[str], None] = None ) → PandasOnSparkDataFrame [source] ¶

将现有的 DataFrame 转换为 pandas-on-Spark DataFrame。

在版本 3.2.0 中新增。

在版本 3.5.0 中更改：支持 Spark Connect。

如果将pandas-on-Spark DataFrame转换为Spark DataFrame，然后再转换回pandas-on-Spark，它将丢失索引信息，原始索引将变成普通列。

只有在安装并可用Pandas时，这才可用。

Parameters

Returns

另请参见

示例

None

           >>> df = spark.createDataFrame(
...     [(14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"])

           >>> df.pandas_api()  
   age   name
0   14    Tom
1   23  Alice
2   16    Bob

          

我们可以指定索引列。

           >>> df.pandas_api(index_col="age")  
      name
age
14     Tom
23   Alice
16     Bob

          

上一个

pyspark.sql.DataFrame.writeTo

下一步

pyspark.sql.DataFrameNaFunctions.drop