⚡ Pyspark
"Spark support
Spark dataframes support - Spark Dataframes profiling is available from ydata-profiling version 4.0.0 onwards
数据分析是开发AI解决方案过程中的核心步骤。对于小型数据集,可以将数据加载到内存中,并使用Python和pandas数据帧轻松访问。然而,对于更大的数据集,我们能做些什么呢?
大数据引擎通过分布式工作负载到不同的机器上,是解决这一问题的答案。特别是,Spark作为数据社区中最常用和采用的引擎之一崭露头角。ydata-profiling
提供了一个易于使用的接口,只需一行代码即可从您的Spark数据帧生成完整且全面的数据分析。
入门指南
在Linux和Windows上安装Pyspark
Tip
- 确保您首先安装系统要求(spark和java)。
-
- 前往下载Java JDK并下载Java开发工具包(JDK)。
- 下载并安装Spark版本大于3.3
- 设置您的环境变量
export SPARK_VERSION=3.3.0
export SPARK_DIRECTORY=/opt/spark
export HADOOP_VERSION=2.7
mkdir -p ${SPARK_DIRECTORY}
sudo apt-get update
sudo apt-get -y install openjdk-8-jdk
curl https://archive.apache.org/dist/spark/spark-${SPARK_VERSION}/spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION}.tgz \
--output ${SPARK_DIRECTORY}/spark.tgz
cd ${SPARK_DIRECTORY} && tar -xvzf spark.tgz && mv spark-${SPARK_VERSION}-bin-hadoop${HADOOP_VERSION} sparkenv
有关安装的更详细教程可以在这里找到。
在MacOS上安装Pyspark
使用Homebrew
确保系统要求已安装(java和scala(可选))
安装pyspark
在成功安装Apache Spark后,从命令行运行pyspark以启动PySpark shell,并确认python和pyspark版本。有关安装的更详细教程可以在这里找到。
安装ydata-profiling
创建一个pip虚拟环境或conda环境,并将ydata-profiling
与pyspark作为依赖项一起安装
使用Spark进行分析 - 支持的功能
最小模式
此模式在v4.0.0版本中引入
ydata-profiling
现在支持Spark数据帧分析。您可以在这里找到集成的示例。
- 支持的功能:
-
- 单变量分析
- 数据集样本的头部和尾部
- 相关矩阵:Pearson和Spearman
- 即将推出
-
- 缺失值分析
- 交互
- 改进的直方图计算
使用Spark数据帧进行分析
一个快速入门示例,利用Pyspark引擎和ydata-profiling
从CSV文件中分析数据。
使用Spark数据帧进行分析 | |
---|---|
ydata-profiling在Databricks中
是的!我们有一个全新的教程,教您如何在Databricks笔记本中使用ydata-profiling。
笔记本示例可以在这里找到。
敬请期待 - 我们很快会更新文档!