VS Code 中数据整理器的快速入门指南
Data Wrangler 是一个以代码为中心的数据查看和清理工具,集成在 VS Code 和 VS Code Jupyter Notebooks 中。它提供了一个丰富的用户界面来查看和分析您的数据,显示有洞察力的列统计信息和可视化,并在您清理和转换数据时自动生成 Pandas 代码。
以下是一个从笔记本中打开Data Wrangler以使用内置操作分析和清理数据的示例。然后,自动生成的代码被导出回笔记本中。
本页面的目标是帮助您快速上手使用Data Wrangler。
设置您的环境
- 如果尚未安装,请安装 Python (注意: Data Wrangler 仅支持 Python 3.8 或更高版本)。
- 安装 Data Wrangler 扩展
当你第一次启动Data Wrangler时,它会询问你想要连接到哪个Python内核。它还会检查你的机器和环境,看看是否安装了所需的Python包,例如Pandas。
开放数据整理工具
每当你在Data Wrangler中时,你都在一个沙盒环境中,这意味着你可以安全地探索和转换数据。原始数据集在你明确导出更改之前不会被修改。
从Jupyter Notebook启动Data Wrangler
如果您在笔记本中有一个Pandas数据框,现在您会在运行df.head()
、df.tail()
、display(df)
、print(df)
或df
后,在单元格底部看到一个在Data Wrangler中打开'df'按钮(其中df
是您数据框的变量名称)。
直接从文件启动数据整理器
你也可以直接从本地文件(例如.csv
)启动Data Wrangler。为此,请在VS Code中打开包含你想要打开的文件的任何文件夹。在文件资源管理器视图中,右键点击文件并点击在Data Wrangler中打开。
用户界面导览
Data Wrangler 在处理数据时有两种模式。每种模式的详细信息将在下面的章节中解释。
- 查看模式: 查看模式优化了界面,使您能够快速查看、过滤和排序数据。此模式非常适合对数据集进行初步探索。
- 编辑模式: 编辑模式优化了界面,以便您对数据集应用转换、清理或修改。当您在界面中应用这些转换时,Data Wrangler 会自动生成相关的 Pandas 代码,并且可以将其导出回您的笔记本以供重复使用。
注意:默认情况下,Data Wrangler 在查看模式下打开。您可以在设置编辑器中更改此行为 。
查看模式界面
-
数据摘要面板显示您整个数据集或特定列的详细摘要统计信息(如果已选择)。
-
您可以从列的标题菜单中对列应用任何数据过滤器/排序。
-
在Data Wrangler的查看或编辑模式之间切换,以访问内置的数据操作。
-
快速洞察标题是您可以快速查看每列有价值信息的地方。根据列的数据类型,快速洞察显示数据的分布或数据点的频率,以及缺失值和唯一值。
-
数据网格为您提供了一个可滚动的窗格,您可以在其中查看整个数据集。
编辑模式界面
切换到编辑模式可以在数据整理器中启用额外的功能和用户界面元素。在下面的截图中,我们使用数据整理器将最后一列中的缺失值替换为该列的中位数。
-
操作面板是您可以搜索所有Data Wrangler内置数据操作的地方。这些操作按类别组织。
-
清理步骤面板显示了之前应用的所有操作列表。它使用户能够撤销特定操作或编辑最近的操作。选择一个步骤将突出显示数据网格中的更改,并显示与该操作相关的生成代码。
-
导出菜单允许您将代码导出回Jupyter Notebook或将数据导出到新文件中。
-
当您选择了一个操作并预览其对数据的影响时,网格会覆盖一个数据差异视图,显示您对数据所做的更改。
-
代码预览部分显示了当选择操作时,Data Wrangler 生成的 Python 和 Pandas 代码。当未选择任何操作时,该部分保持为空。您可以编辑生成的代码,这将导致数据网格突出显示对数据的影响。
示例:替换数据集中的缺失值
给定一个数据集,常见的数据清理任务之一是处理数据中的任何缺失值。下面的示例展示了如何使用Data Wrangler将列中的缺失值替换为该列的中位数。虽然转换是通过界面完成的,但Data Wrangler还会自动生成用于替换缺失值的Python和Pandas代码。
- 在操作面板中,搜索填充缺失值操作。
- 在参数中指定您希望用什么替换缺失值。在这种情况下,我们将用该列的中位数替换缺失值。
- 验证数据网格是否在数据差异中显示正确的更改。
- 验证由Data Wrangler生成的代码是否符合您的预期。
- 应用该操作,它将被添加到您的清洗步骤历史记录中。
下一步
本页面介绍了如何快速开始使用Data Wrangler。有关Data Wrangler的完整文档和教程,包括Data Wrangler当前支持的所有内置操作,请参阅以下页面。