Skip to content

数据集比较

数据框比较支持

从 ydata-profiling 版本 3.5.0 开始支持概况比较。 目前尚不支持 Spark 数据框的概况比较。

ydata-profiling 可用于比较同一数据集的多个版本。这在比较多个时间段的数据时非常有用,例如两年。另一个常见场景是在机器学习中查看训练集、验证集和测试集的数据集概况。

以下语法可用于比较两个数据集:

比较两个数据集
from ydata_profiling import ProfileReport

train_df = pd.read_csv("train.csv")
train_report = ProfileReport(train_df, title="训练集")

test_df = pd.read_csv("test.csv")
test_report = ProfileReport(test_df, title="测试集")

comparison_report = train_report.compare(test_report)
comparison_report.to_file("comparison.html")

比较报告在整个过程中使用 Settings 中的 title 属性作为标签。颜色在 settings.html.style.primary_colors 中配置。可以通过调整 settings.report.precision 数值精度参数来获得报告中的额外空间。

为了比较两个以上的报告,可以使用以下语法:

比较两个以上数据集
1
2
3
4
5
6
7
8
9
from ydata_profiling import ProfileReport, compare

comparison_report = compare([train_report, validation_report, test_report])

# 获取合并的统计数据
statistics = comparison_report.get_description()

# 保存报告到文件
comparison_report.to_file("comparison.html")

Note

此功能仅确保支持两个数据集的报告比较。可以获取统计数据,但报告可能存在格式问题。可以更改的设置之一是 settings.report.precision。作为经验法则,单个报告可以使用值 10,而比较两个报告时使用 8。