Skip to content

⚡ Pyspark

"Spark support

Spark dataframes support - Spark Dataframes profiling is available from ydata-profiling version 4.0.0 onwards

数据分析是开发AI解决方案过程中的核心步骤。对于小型数据集,可以将数据加载到内存中,并使用Python和pandas数据帧轻松访问。然而,对于更大的数据集,我们能做些什么呢?

大数据引擎通过分布式工作负载到不同的机器上,是解决这一问题的答案。特别是,Spark作为数据社区中最常用和采用的引擎之一崭露头角。ydata-profiling提供了一个易于使用的接口,只需一行代码即可从您的Spark数据帧生成完整且全面的数据分析。

入门指南

在Linux和Windows上安装Pyspark

Tip

确保您首先安装系统要求(spark和java)。
export SPARK_VERSION=3.3.0
export SPARK_DIRECTORY=/opt/spark
export HADOOP_VERSION=2.7
mkdir -p ${SPARK_DIRECTORY}
sudo apt-get update
sudo apt-get -y install openjdk-8-jdk
curl https://archive.apache.org/dist/spark/spark-${SPARK_VERSION}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz \
--output ${SPARK_DIRECTORY}/spark.tgz
cd ${SPARK_DIRECTORY} && tar -xvzf spark.tgz && mv spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION} sparkenv

有关安装的更详细教程可以在这里找到。

在MacOS上安装Pyspark

使用Homebrew确保系统要求已安装(java和scala(可选))

console brew
install <openjdk@11>
#安装scala是可选的
brew install scala

安装pyspark

brew install apache-spark

在成功安装Apache Spark后,从命令行运行pyspark以启动PySpark shell,并确认python和pyspark版本。有关安装的更详细教程可以在这里找到。

安装ydata-profiling

创建一个pip虚拟环境或conda环境,并将ydata-profiling与pyspark作为依赖项一起安装

pip install ydata-profiling[pyspark]

使用Spark进行分析 - 支持的功能

最小模式

此模式在v4.0.0版本中引入

ydata-profiling现在支持Spark数据帧分析。您可以在这里找到集成的示例。

支持的功能:
  • 单变量分析
  • 数据集样本的头部和尾部
  • 相关矩阵:Pearson和Spearman
即将推出
  • 缺失值分析
  • 交互
  • 改进的直方图计算

使用Spark数据帧进行分析

一个快速入门示例,利用Pyspark引擎和ydata-profiling从CSV文件中分析数据。

使用Spark数据帧进行分析
from pyspark.sql import SparkSession
spark = SparkSession.builder().master("local[1]")
      .appName("SparkByExamples.com")
      .getOrCreate()

df = spark.read.csv("{insert-file-path}")

df.printSchema()

a = ProfileReport(df)
a.to_file("spark_profile.html")

ydata-profiling在Databricks中

是的!我们有一个全新的教程,教您如何在Databricks笔记本中使用ydata-profiling。

笔记本示例可以在这里找到。

敬请期待 - 我们很快会更新文档!