pyspark.sql.DataFrame.pandas_api

DataFrame. pandas_api ( index_col : Union[str, List[str], None] = None ) → PandasOnSparkDataFrame [source]

将现有的 DataFrame 转换为 pandas-on-Spark DataFrame。

在版本 3.2.0 中新增。

在版本 3.5.0 中更改: 支持 Spark Connect。

如果将pandas-on-Spark DataFrame转换为Spark DataFrame,然后再转换回pandas-on-Spark,它将丢失索引信息,原始索引将变成普通列。

只有在安装并可用Pandas时,这才可用。

Parameters
index_col: str or list of str, optional, default: None

Spark中表的索引列。

Returns
PandasOnSparkDataFrame

另请参见

pyspark.pandas.frame.DataFrame.to_spark

示例

None
>>> df = spark.createDataFrame(
...     [(14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"])
>>> df.pandas_api()  
   age   name
0   14    Tom
1   23  Alice
2   16    Bob

我们可以指定索引列。

>>> df.pandas_api(index_col="age")  
      name
age
14     Tom
23   Alice
16     Bob