数据集比较
数据框比较支持
从 ydata-profiling 版本 3.5.0 开始支持概况比较。
目前尚不支持 Spark 数据框的概况比较。
ydata-profiling
可用于比较同一数据集的多个版本。这在比较多个时间段的数据时非常有用,例如两年。另一个常见场景是在机器学习中查看训练集、验证集和测试集的数据集概况。
以下语法可用于比较两个数据集:
比较两个数据集 |
---|
| from ydata_profiling import ProfileReport
train_df = pd.read_csv("train.csv")
train_report = ProfileReport(train_df, title="训练集")
test_df = pd.read_csv("test.csv")
test_report = ProfileReport(test_df, title="测试集")
comparison_report = train_report.compare(test_report)
comparison_report.to_file("comparison.html")
|
比较报告在整个过程中使用 Settings
中的 title
属性作为标签。颜色在 settings.html.style.primary_colors
中配置。可以通过调整 settings.report.precision
数值精度参数来获得报告中的额外空间。
为了比较两个以上的报告,可以使用以下语法:
比较两个以上数据集 |
---|
| from ydata_profiling import ProfileReport, compare
comparison_report = compare([train_report, validation_report, test_report])
# 获取合并的统计数据
statistics = comparison_report.get_description()
# 保存报告到文件
comparison_report.to_file("comparison.html")
|
Note
此功能仅确保支持两个数据集的报告比较。可以获取统计数据,但报告可能存在格式问题。可以更改的设置之一是 settings.report.precision
。作为经验法则,单个报告可以使用值 10,而比较两个报告时使用 8。