概念
文本/语料数据 - 需要您的输入!
ydata-profiling
团队正在考虑为语料数据支持一组新功能,我们希望听取您的意见!我们特别感兴趣的是了解您为什么认为这些功能会有用,您的输入将帮助我们确定优先级并完善这项开发。
👉 请在此处链接进行投票 [添加请求表单的链接]
支持的数据结构
分析提供了对各种类型数据的全面洞察,包括表格数据、时间序列数据、文本数据和图像数据。
- 表格数据: 处理表格数据(如电子表格或数据库)时,分析提供了有关数据分布、中心趋势和分类变量频率的有价值统计数据。它以可视化的方式识别多变量关系,如相关性和交互作用,并识别缺失数据。
- 时间序列数据: 处理具有时间维度的数据时,分析扩展了其功能,以捕捉趋势、季节性、周期性模式和缺失数据间隙。它可以揭示有关数据波动性、周期性和异常的信息,促进对时间依赖趋势的深入理解。
- 文本: 处理文本数据(如字符串或文档)时,分析提供了有关词频分布、常见短语和独特词汇的深刻统计数据。
数据类型
类型,超越了整数、浮点数等逻辑数据类型,是有效数据分析的强大抽象,允许在更高层次的视角下进行分析。ydata-profiling
由一个专为数据分析开发的功能强大的类型系统支持:visions <https://github.com/dylan-profiler/visions>
_。目前,ydata-profiling
识别以下类型:
- 布尔值
- 数值
- 日期(和日期时间)
- 分类
- 时间序列
- URL
- 路径
- 文件
- 图像
适当的类型集可以提高整体表达能力并降低分析/代码的复杂性。完全支持用户自定义的汇总和类型定义,欢迎支持新数据类型的 PR,特别是针对特定用例。有关参考,您可以查看 ydata-profiling
默认类型集的实现 此处。
数据质量警报
NASA 陨石 数据集报告中的警报部分。一些警报包括数值指标。
报告的 警报 部分包含一个全面且自动的潜在数据质量问题列表。尽管有用,但决定警报是否确实是数据质量问题总是需要领域验证。一些警告涉及特定列,其他涉及列间关系,还有一些是数据集范围的。下表列出了所有可能的数据质量警报及其含义。
Alert | Description |
---|---|
Constant |
Column only contains one value |
Zeros |
Column only contains zeros |
High Correlation |
Correlations (either Spearman, Cramer, Pearson, Kendall, 𝜙k) are above the warning threshold (configurable). |
High Cardinality |
Whether the column has more than 50 distinct values. Threshold is configurable. |
Imbalance |
Column is highly imbalanced. Threshold is configurable. |
Skewness |
Column's univariate distribution presents skewness. Threshold value is configurable. |
Missing Values |
Column has missing values |
Infinite Values |
Column has infinite values (either np.inf or -np.inf ) |
Unique Values |
All values of the column are unique (count of unique values equals column's length) |
Seasonal |
Column has seasonal pattern |
Non Stationary |
Column is a time-series non-stationary |
Date |
Column (likely/mostly) contains Date or Datetime records |
Uniform |
Column follows a uniform distribution (Chi-squared test score > 0.999, threshold score is configurable) |
Constant length |
For strings/date/datetimes columns whose entries all have the same length |
Rejected |
Variable has mixed types or is constant (thus not suitable for meaningful analysis) |
Unsupported |
Column can't be analysed (type is not supported, has mixed types, has lists /dicts /tuples , is |
empty, wrongly formatted) | |
Duplicates |
Dataset-level warning signaling the presence of more than 10 duplicated records. |
Empty |
Dataset-level warning signaling there's no data to be analysed. |
有关这些警报计算中使用的默认值和特定参数/阈值的信息,以及禁用特定警报的设置,可以在 文档 中查阅。
单变量分析
本节提供了给定数据集中单个变量的全面概述,此功能对于探索性数据分析(EDA)特别有用,因为它自动计算每个变量的详细统计数据、可视化和洞察。它提供诸如数据类型、缺失值、唯一值、基本描述性统计、直方图和分布图等信息。这使数据分析师和科学家能够快速了解每个变量的特征,识别潜在的数据质量问题,并初步了解数据的分布和变异性。
有关不同指标和可视化的更多详细信息,请查看单变量部分详细页面。
多变量分析
本节通过相关矩阵和交互作用提供了变量之间关系的要点洞察。相关视图计算并展示数值变量对之间的相关系数,有助于识别潜在的线性关系。 这有助于数据分析师和科学家理解变量如何共同变化,并突出可能的多重共线性问题。
另一方面,交互部分通过探索变量之间潜在的非线性关系和交互作用,超越了相关性分析,提供了对变量如何相互作用的更全面理解。这对于识别可能无法通过传统相关性分析捕捉到的隐藏模式至关重要。
查看交互配置和相关矩阵指标部分以获取更多详细信息。
缺失数据
本节提供了关于数据集中缺失数据的分布和存在的宝贵见解。对于数据预处理和质量评估特别有帮助,因为它提供了跨变量的缺失值的综合摘要,指出了每个变量的缺失数据百分比。此外,它通过条形图和热图显示了缺失数据的视觉表示,使用户能够快速识别哪些变量具有最多的缺失信息。
查看如何配置缺失数据的可视化。
异常值 **
本节提供了对潜在数据集异常值的全面分析。您可以验证并观察异常值的存在及其与数值变量总体分布的偏差,基于观察到的方差。异常值的识别使数据分析师或科学家能够评估它们是否是真实的数据异常或错误条目,从而在进一步分析中决定是保留、转换还是排除这些点时做出明智的决策。
此功能仅限于云托管解决方案的用户。
数据预览
为了快速概览数据,ydata-profiling 提供了以下用户可以轻松配置的部分: - 给定数据集的前 n 条记录 - 给定数据集的后 n 条记录 - 包含观察到的重复项(完全匹配)的表格