Skip to content

常见问题解答

如何从我的合成数据生成过程中获取准确的数据?

根据您的使用场景、合成数据的下游应用以及原始数据的特点,您需要相应地调整合成过程。这通常涉及进行彻底的数据准备并适当拟合生成模型。

Tip

对于面向用例的用户界面体验,请尝试 YData Fabric。从交互式且完整的数据概况到高效的合成,您的数据准备过程将无缝适应您的数据特征。

评估合成数据质量的最佳方法是什么?

评估合成数据质量的最合适指标也取决于合成数据的使用目的。尽管如此,我们可以定义合成数据质量的三个基本支柱:隐私、保真度和实用性:

  • 隐私指的是合成数据保留任何个人、私人或敏感信息的能力,避免与原始数据建立联系并防止数据泄露;

  • 保真度涉及新数据保留原始数据属性的能力(换句话说,它指的是合成数据与真实数据相比“有多忠实、多精确”);

  • 最后,实用性与合成数据将使用的下游应用相关:如果合成过程成功,应能从新数据中得出与原始数据相同的见解。

对于这些组成部分中的每一个,都可以评估几个特定的统计指标。

Abstract

要了解更多关于如何在隐私、保真度和实用性之间定义特定权衡的信息,请查看这篇关于 合成数据质量指标 的白皮书。

如何在 Google Colab 和 Python 环境中生成合成数据?

大多数安装问题通常与不支持的 Python 版本或 Python 环境与包要求之间的不匹配有关。

让我们看看如何正确处理这些问题:

Python 版本

请注意,ydata-sdk 目前需要 Python >=3.9, < 3.13,因此如果您尝试在 Google Colab 中运行我们的代码,则需要相应地更新您的 Google Colab 的 Python 版本。对于您的开发环境也是如此。

虚拟环境

许多故障排除是由于环境与包要求之间的不匹配引起的。虚拟环境将您的安装与“全局”环境隔离,因此您不必担心冲突。

使用 conda,创建一个新环境就像在 shell 中运行以下命令一样简单:

conda create --name synth-env python==3.12 pip
conda activate synth-env
pip install ydata-sdk

现在您可以打开您的 Python 编辑器或 Jupyter Lab,并将 synth-env 用作您的开发环境,而不必担心项目之间的版本或包冲突!

TimeGAN 是否会复制我的完整数据序列?

不会。这是一个不切实际的期望,因为 TimeGAN 架构并不是为了复制数据的长期行为而设计的。

TimeGAN 使用“窗口”的概念:它学习映射您提供的时间窗口内短期时间帧的数据分布。它还考虑了这些窗口彼此独立,因此无法返回大多数人期望的时间模式。

这不支持该架构本身,但还有其他架构允许短期和长期合成,如 YData Fabric 中提供的那些。

Abstract

了解更多关于 YData 的时间序列合成数据生成与 TimeGAN 的比较,请查看这篇专门的文章

额外支持

找不到您需要的内容?请联系我们的专门团队 以获得快速且 syn-ple 的帮助!