Index
概述
YData-Synthetic
是一个开源包,于2020年开发,主要目标是教育用户了解用于合成数据生成的生成模型。设计为一系列模型,旨在用于探索性研究和教育目的。然而,它并未针对组织通常需要的质量、性能和可扩展性需求进行优化。
我们现在是 ydata-sdk!
尽管这段旅程很有趣,并且我们从社区中学到了很多,但现在是为 ydata-synthetic
升级的时候了。
面向合成数据生成的未来,我们建议用户过渡到 ydata-sdk
,它提供了更优越的体验,具有增强的性能、精确度和易用性,使其成为合成数据生成和生成式AI入门的理想工具。
支持的数据类型
表格数据 没有时间依赖性,可以以表格格式结构化和组织,其中特征表示为列,而观察结果对应于行。
此外,表格数据通常包含数值和分类特征。数值特征编码定量值,而分类特征表示定性测量。分类特征可以进一步分为有序、二进制或布尔以及名义特征。
时间序列数据 表现出记录之间的顺序时间依赖性,并可能呈现多种模式和趋势,包括季节性(在日历周期内重复的模式,如假日销售)或周期性(随时间重复的模式)。
多表数据 或数据库在数据库模式之间表现出参考行为,生成的合成数据应复制并遵守该模式。 阅读更多关于数据库合成数据生成的文章,并查看多表合成数据生成的快速入门指南 时间序列数据 表现出记录之间的顺序时间依赖性,并可能呈现多种模式和趋势,包括季节性(在日历周期内重复的模式,如假日销售)或周期性(随时间重复的模式)。
验证生成的合成数据质量
验证合成数据的质量对于确保其有用性和隐私至关重要。YData Fabric 通过以下工具提供全面的合成数据评估:
-
配置文件比较可视化: Fabric 提供合成数据和原始数据集之间关键数据属性(如分布、相关性和异常值)的并排可视化比较,使用户能够一目了然地评估保真度。
-
包含指标的PDF报告: Fabric 生成包含关键指标的PDF报告,用于评估:
-
保真度:合成数据与原始数据的匹配程度。
- 实用性:在现实任务中的表现如何。
- 隐私:数据泄露和再识别的风险评估。
这些工具确保了对合成数据质量的全面验证,使其在实际应用中可靠。
支持的生成式AI模型
随着 ydata-synthetic
更新为 ydata-sdk
,用户现在可以通过单一API自动选择和优化最适合其数据的生成模型。这种简化的方法消除了手动选择各种模型的需求,因为API会根据特定数据集和使用场景智能识别最佳模型。
不再需要手动从以下模型中选择:
- GAN
- CGAN(条件GAN)
- WGAN(Wasserstein GAN)
- WGAN-GP(带梯度惩罚的Wassertein GAN)
- DRAGAN(深度遗憾分析GAN)
- Cramer GAN(解决偏置Wasserstein梯度的Cramer距离方案)
- CWGAN-GP(带梯度惩罚的条件Wassertein GAN)
- CTGAN(条件表格GAN)
- TimeGAN(专用于时间序列数据)
- DoppelGANger(专用于时间序列数据)
新的API自动处理模型选择,优化在保真度、实用性和隐私方面的最佳性能。这大大简化了合成数据生成过程,确保用户无需手动干预和繁琐的超参数调整即可获得最高质量的输出。