入门#

安装#

使用 conda?

pandas 是 Anaconda 发行版的一部分,可以通过 Anaconda 或 Miniconda 安装:

更喜欢 pip?

可以通过 PyPI 从 pip 安装 pandas。

深入的指令?

安装特定版本?从源代码安装?查看高级安装页面。

pandas 简介#

当处理表格数据时,例如存储在电子表格或数据库中的数据,pandas 是你的正确工具。pandas 将帮助你探索、清理和处理你的数据。在 pandas 中,一个数据表被称为 DataFrame

../_images/01_table_dataframe.svg

pandas 支持与许多文件格式或数据源的开箱即用集成(csv、excel、sql、json、parquet 等)。从每个数据源导入数据的能力由前缀为 read_* 的函数提供。类似地,to_* 方法用于存储数据。

../_images/02_io_readwrite.svg

选择或过滤特定的行和/或列?根据特定条件过滤数据?pandas 提供了切片、选择和提取所需数据的方法。

../_images/03_subset_columns_rows.svg

pandas 提供了使用 Matplotlib 的强大功能直接从您的数据中绘图的功能。只需选择与您的数据相对应的图表类型(散点图、条形图、箱线图等)。

../_images/04_plot_overview.svg

没有必要循环遍历数据表的所有行来进行计算。在 pandas 中,列数据操作是按元素进行的。基于其他列中的现有数据向 DataFrame 添加列是直截了当的。

../_images/05_newcolumn_2.svg

基本统计(均值、中位数、最小值、最大值、计数…)可以很容易地在数据框中计算。这些,甚至是自定义的聚合,可以应用于整个数据集、数据的滑动窗口,或按类别分组。后者也被称为分割-应用-合并方法。

../_images/06_groupby.svg
以多种方式改变你的数据表结构。你可以使用 melt() 将数据从宽格式重塑为长而整洁的格式。使用 pivot()

从长格式转换为宽格式。通过内置的聚合功能,可以用一个命令创建数据透视表。

../_images/07_melt.svg

多个表格可以通过 pandas 类似数据库的连接和合并操作按列或按行连接。

../_images/08_concat_row.svg

pandas 对时间序列有很好的支持,并且有一套广泛的工具用于处理日期、时间和时间索引的数据。

数据集通常不仅仅包含数值数据。pandas 提供了广泛的功能来清理文本数据并从中提取有用的信息。

来自…#

你熟悉其他用于操作表格数据的软件吗?学习与已知软件相比的 pandas 等效操作:

R 编程语言 提供了 data.frame 数据结构以及像 tidyverse 这样的包,它们使用并扩展了 data.frame 以提供类似 pandas 的便捷数据处理功能。

已经熟悉 SELECTGROUP BYJOIN 等?许多 SQL 操作在 pandas 中有等效的操作。

data set 包含在 STATA 统计软件套件中,对应于 pandas 的 DataFrame。许多从 STATA 中已知的操作在 pandas 中都有等效的操作。

使用 Excel 或其他电子表格程序的用户会发现,许多概念可以转移到 pandas。

SAS, 统计软件套件, 使用 数据集 结构, 这与 pandas 的 DataFrame 非常相似。此外,SAS 的向量化操作(如过滤或字符串处理操作)在 pandas 中也有类似的功能。

教程#

要快速了解 pandas 的功能,请参阅 10 分钟入门 pandas

你也可以参考 pandas 的 速查表 ,这是一个用 pandas 操作数据的简洁指南。

社区制作了各种各样的在线教程。一些资料列在社区贡献的 社区教程 中。