pyspark.sql.DataFrame.pandas_api ¶
-
DataFrame.pandas_api( index_col : Union[str, List[str], None] = None ) → PandasOnSparkDataFrame [source] ¶ -
将现有的 DataFrame 转换为 pandas-on-Spark DataFrame。
在版本 3.2.0 中新增。
在版本 3.5.0 中更改: 支持 Spark Connect。
如果将pandas-on-Spark DataFrame转换为Spark DataFrame,然后再转换回pandas-on-Spark,它将丢失索引信息,原始索引将变成普通列。
只有在安装并可用Pandas时,这才可用。
- Parameters
-
- index_col: str or list of str, optional, default: None
-
Spark中表的索引列。
- Returns
-
-
PandasOnSparkDataFrame
-
另请参见
-
pyspark.pandas.frame.DataFrame.to_spark
示例
None>>> df = spark.createDataFrame( ... [(14, "Tom"), (23, "Alice"), (16, "Bob")], ["age", "name"])
>>> df.pandas_api() age name 0 14 Tom 1 23 Alice 2 16 Bob
我们可以指定索引列。
>>> df.pandas_api(index_col="age") name age 14 Tom 23 Alice 16 Bob