Skip to content

欢迎

数据质量分析和探索性数据分析是数据科学和机器学习开发过程中的关键步骤。 YData-profiling 是数据科学工作流程中数据理解步骤的领先工具,作为一个开创性的 Python 包。

ydata-profiling 是一个领先的数据分析包,它自动化并标准化了详细报告的生成, 包括统计数据和可视化。该包的重要性在于它如何通过一行代码简化了理解数据和准备分析数据的过程!如果你准备好了,请查看快速入门

分析规模和数据库

将你的数据分析提升到一个新的水平 - 尝试大规模和数据库的 ydata-profiling!

体验企业级的可扩展性和数据库支持,同时享受你喜爱的熟悉的开源功能。轻松深入大型数据集,确保数据质量前所未有。尝试 YData Fabric 社区版

ydata-profiling 报告

为什么使用 ydata-profiling?

ydata-profiling 是数据科学家和分析师的宝贵工具,因为它简化了 EDA,提供了全面的见解,增强了数据质量, 并促进了数据科学的最佳实践。

  • 简单易用:它非常简单易用 - 你只需要一行代码就可以开始。你真的还需要更多理由来说服你吗? 😛
    1
    2
    3
    4
    5
    import pandas as pd
    from ydata_profiling import ProfileReport
    
    df = pd.read_csv('data.csv')
    profile = ProfileReport(df, title="分析报告")
    
  • 全面的报告洞察:报告包括广泛的统计数据和可视化,提供你数据的全面视图。报告可以作为 HTML 文件共享或在 Jupyter Notebook 中作为小部件集成。
  • 数据质量评估:擅长识别缺失数据、重复条目和异常值。这些见解对于数据清理和准备至关重要,确保分析的可靠性并导致早期问题的识别。
  • 与其他流程轻松集成:所有数据分析指标都可以以标准 JSON 格式消费。
  • 大型数据集的数据探索:即使数据集有大量行,ydata-profiling 也能帮助你,因为它支持 Pandas Dataframes 和 Spark Dataframes

要了解更多关于该包的信息,请查看概念概述

📝 功能、功能和集成

YData-profiling 可以用于交付各种不同的应用。文档包括解决这些问题的指南、技巧和窍门:

数据目录与数据库和存储的数据分析

需要直接从数据库和数据存储(Oracle、Snowflake、PostgreSQL、GCS、S3 等)进行分析吗?

尝试 YData Fabric 数据目录 进行交互式和可扩展的数据分析

查看 免费社区版

功能和功能 描述
比较数据集 比较同一数据集的多个版本
分析时间序列数据集 用一行代码生成时间序列数据集的报告
分析大型数据集 关于如何准备数据和配置 ydata-profiling 以处理大型数据集的提示
处理敏感数据 生成对输入数据集中的敏感数据有意识的报告
数据集元数据和数据字典 用数据集详细信息和列特定数据字典补充报告
自定义报告外观 更改报告页面和包含的可视化的外观
关系型数据库分析 ** 为了在您组织的数据库中获得无缝的分析体验,请查看 Fabric Data Catalog,它允许从不同类型的存储中消费数据,如RDBMs(Azure SQL、PostGreSQL、Oracle等)和对象存储(Google Cloud Storage、AWS S3、Snowflake等),以及其他存储。
PII分类与管理 ** 通过UI体验实现自动化的PII分类与管理

教程

寻找如何使用某些功能或如何将 ydata-profiling 集成到您当前的堆栈和工作流程中? 查看我们的分步教程。

  • 如何掌握使用 ydata-profiling 进行探索性数据分析? 查看这个 分步教程
  • 想要了解如何对时间序列进行探索性数据分析 🕛? 查看这个 博客文章。 要了解更多关于此功能的信息 查看文档
  • 如何比较两个数据集?我们为您准备了这份 分步教程 要了解更多关于此功能的信息 查看文档
  • 想要扩展到更大的数据集? 查看有关 ⭐⚡Spark 支持 的发布信息! 要了解更多关于 Spark 集成的信息 查看文档

🙋 支持

需要帮助?想要分享一个观点?报告一个错误?合作的想法?通过以下渠道联系我们:

  • Stack Overflow:适合询问如何使用该包的问题
  • GitHub Issues:错误、更改建议、功能请求
  • Discord:适合项目讨论、提问、合作、一般聊天

帮助我们优先处理 - 在报告之前,再次检查,总是更好!

在 GitHub 上报告问题之前,查看 常见问题

如果您想验证您的请求是否已优先处理,请查看 项目管道详情

🤝🏽 贡献

了解如何参与 贡献指南

一个低门槛的地方来提问或开始贡献是 数据中心化 AI 社区的 Discord

非常感谢我们所有了不起的贡献者!

⚡ 我们需要您的帮助 - Spark!

Spark 支持已经发布,但我们总是在寻找额外的帮助 👐。 查看当前正在进行的工作!