In [1]: import pandas as pd
Data used for this tutorial:
  • 本教程使用泰坦尼克号数据集,存储为CSV格式。数据包含以下数据列:

    • PassengerId: 每位乘客的ID。

    • 幸存:乘客是否幸存的指示。0 表示是,1 表示否。

    • Pclass:三种票等级之一:等级 1、等级 2 和等级 3

    • 名称:乘客的姓名。

    • Sex: 乘客的性别。

    • 年龄:乘客的年龄(岁)。

    • SibSp: 船上的兄弟姐妹或配偶数量。

    • Parch: 父母或孩子在船上的数量。

    • 票:乘客的票号。

    • 票价:指示票价。

    • Cabin: 乘客的舱位号。

    • Embarked: 登船港。

    To raw data
    In [2]: titanic = pd.read_csv("data/titanic.csv")
    
    In [3]: titanic.head()
    Out[3]: 
       PassengerId  Survived  Pclass                                               Name     Sex   Age  SibSp  Parch            Ticket     Fare Cabin Embarked
    0            1         0       3                            Braund, Mr. Owen Harris    male  22.0      1      0         A/5 21171   7.2500   NaN        S
    1            2         1       1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1      0          PC 17599  71.2833   C85        C
    2            3         1       3                              Heikkinen, Miss Laina  female  26.0      0      0  STON/O2. 3101282   7.9250   NaN        S
    3            4         1       1       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0            113803  53.1000  C123        S
    4            5         0       3                           Allen, Mr. William Henry    male  35.0      0      0            373450   8.0500   NaN        S
    
  • 本教程使用关于 \(NO_2\) 和直径小于2.5微米的颗粒物的空气质量数据,这些数据由 OpenAQ 提供,并使用 py-openaq 包。air_quality_long.csv 数据集提供了测量站 FR04014BETR801London Westminster 分别在巴黎、安特卫普和伦敦的 \(NO_2\)\(PM_{25}\) 值。

    空气质量数据集有以下列:

    • city: 传感器使用的城市,可以是巴黎、安特卫普或伦敦

    • country: 传感器使用的国家,可以是 FR、BE 或 GB

    • 位置:传感器ID,可以是 FR04014BETR801London Westminster

    • 参数:传感器测量的参数,可以是 \(NO_2\) 或颗粒物

    • value: 测量值

    • 单位:测量参数的单位,在这种情况下为‘µg/m³’

    并且 DataFrame 的索引是 datetime,即测量的日期时间。

    备注

    空气质量数据以所谓的 长格式 数据表示提供,每个观测值位于单独的行中,每个变量位于数据表的单独列中。长/窄格式也被称为 整洁数据格式

    To raw data
    In [4]: air_quality = pd.read_csv(
       ...:     "data/air_quality_long.csv", index_col="date.utc", parse_dates=True
       ...: )
       ...: 
    
    In [5]: air_quality.head()
    Out[5]: 
                                    city country location parameter  value   unit
    date.utc                                                                     
    2019-06-18 06:00:00+00:00  Antwerpen      BE  BETR801      pm25   18.0  µg/m³
    2019-06-17 08:00:00+00:00  Antwerpen      BE  BETR801      pm25    6.5  µg/m³
    2019-06-17 07:00:00+00:00  Antwerpen      BE  BETR801      pm25   18.5  µg/m³
    2019-06-17 06:00:00+00:00  Antwerpen      BE  BETR801      pm25   16.0  µg/m³
    2019-06-17 05:00:00+00:00  Antwerpen      BE  BETR801      pm25    7.5  µg/m³
    

如何重塑表格的布局#

排序表格行#

  • 我想根据乘客的年龄对泰坦尼克号数据进行排序。

    In [6]: titanic.sort_values(by="Age").head()
    Out[6]: 
         PassengerId  Survived  Pclass                            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
    803          804         1       3  Thomas, Master Assad Alexander    male  0.42      0      1    2625   8.5167   NaN        C
    755          756         1       2        Hamalainen, Master Viljo    male  0.67      1      1  250649  14.5000   NaN        S
    644          645         1       3           Baclini, Miss Eugenie  female  0.75      2      1    2666  19.2583   NaN        C
    469          470         1       3    Baclini, Miss Helene Barbara  female  0.75      2      1    2666  19.2583   NaN        C
    78            79         1       2    Caldwell, Master Alden Gates    male  0.83      0      2  248738  29.0000   NaN        S
    
  • 我想根据舱位等级和年龄按降序排列泰坦尼克号数据。

    In [7]: titanic.sort_values(by=['Pclass', 'Age'], ascending=False).head()
    Out[7]: 
         PassengerId  Survived  Pclass                       Name     Sex   Age  SibSp  Parch  Ticket    Fare Cabin Embarked
    851          852         0       3        Svensson, Mr. Johan    male  74.0      0      0  347060  7.7750   NaN        S
    116          117         0       3       Connors, Mr. Patrick    male  70.5      0      0  370369  7.7500   NaN        Q
    280          281         0       3           Duane, Mr. Frank    male  65.0      0      0  336439  7.7500   NaN        Q
    483          484         1       3     Turkula, Mrs. (Hedwig)  female  63.0      0      0    4134  9.5875   NaN        S
    326          327         0       3  Nysveen, Mr. Johan Hansen    male  61.0      0      0  345364  6.2375   NaN        S
    

    使用 DataFrame.sort_values(),表格中的行将根据定义的列进行排序。索引将跟随行的顺序。

To user guide

关于表格排序的更多细节在用户指南的 数据排序 部分提供。

长表格式到宽表格式#

让我们使用空气质量数据集的一个小子集。我们专注于 \(NO_2\) 数据,并且只使用每个地点的前两次测量(即每个组的头部)。该子集数据将被称为 no2_subset

# filter for no2 data only
In [8]: no2 = air_quality[air_quality["parameter"] == "no2"]
# use 2 measurements (head) for each location (groupby)
In [9]: no2_subset = no2.sort_index().groupby(["location"]).head(2)

In [10]: no2_subset
Out[10]: 
                                city country            location parameter  value   unit
date.utc                                                                                
2019-04-09 01:00:00+00:00  Antwerpen      BE             BETR801       no2   22.5  µg/m³
2019-04-09 01:00:00+00:00      Paris      FR             FR04014       no2   24.4  µg/m³
2019-04-09 02:00:00+00:00     London      GB  London Westminster       no2   67.0  µg/m³
2019-04-09 02:00:00+00:00  Antwerpen      BE             BETR801       no2   53.5  µg/m³
2019-04-09 02:00:00+00:00      Paris      FR             FR04014       no2   27.4  µg/m³
2019-04-09 03:00:00+00:00     London      GB  London Westminster       no2   67.0  µg/m³
../../_images/07_pivot.svg
  • 我希望三个站点的值作为单独的列并排显示。

    In [11]: no2_subset.pivot(columns="location", values="value")
    Out[11]: 
    location                   BETR801  FR04014  London Westminster
    date.utc                                                       
    2019-04-09 01:00:00+00:00     22.5     24.4                 NaN
    2019-04-09 02:00:00+00:00     53.5     27.4                67.0
    2019-04-09 03:00:00+00:00      NaN      NaN                67.0
    

    pivot() 函数纯粹是对数据的重新塑形:每个索引/列组合需要一个单一的值。

由于 pandas 支持开箱即用的多列绘图(参见 绘图教程),从 表格格式的转换使得可以同时绘制不同的时间序列:

In [12]: no2.head()
Out[12]: 
                            city country location parameter  value   unit
date.utc                                                                 
2019-06-21 00:00:00+00:00  Paris      FR  FR04014       no2   20.0  µg/m³
2019-06-20 23:00:00+00:00  Paris      FR  FR04014       no2   21.8  µg/m³
2019-06-20 22:00:00+00:00  Paris      FR  FR04014       no2   26.5  µg/m³
2019-06-20 21:00:00+00:00  Paris      FR  FR04014       no2   24.9  µg/m³
2019-06-20 20:00:00+00:00  Paris      FR  FR04014       no2   21.4  µg/m³
In [13]: no2.pivot(columns="location", values="value").plot()
Out[13]: <Axes: xlabel='date.utc'>
savefig/7_reshape_columns.png

备注

index 参数未定义时,使用现有的索引(行标签)。

To user guide

关于 pivot() 的更多信息,请参阅用户指南中关于 重塑 DataFrame 对象 的部分。

数据透视表#

../../_images/07_pivot_table.svg
  • 我想要表中每个站点 \(NO_2\)\(PM_{2.5}\) 的平均浓度。

    In [14]: air_quality.pivot_table(
       ....:     values="value", index="location", columns="parameter", aggfunc="mean"
       ....: )
       ....: 
    Out[14]: 
    parameter                 no2       pm25
    location                                
    BETR801             26.950920  23.169492
    FR04014             29.374284        NaN
    London Westminster  29.740050  13.443568
    

    pivot() 的情况下,数据只是重新排列。当需要聚合多个值时(在这个特定情况下,不同时间步的值),可以使用 pivot_table() ,提供一个聚合函数(例如平均值)来如何组合这些值。

数据透视表是电子表格软件中众所周知的概念。当对每个变量的行/列边距(小计)感兴趣时,将 margins 参数设置为 True

In [15]: air_quality.pivot_table(
   ....:     values="value",
   ....:     index="location",
   ....:     columns="parameter",
   ....:     aggfunc="mean",
   ....:     margins=True,
   ....: )
   ....: 
Out[15]: 
parameter                 no2       pm25        All
location                                           
BETR801             26.950920  23.169492  24.982353
FR04014             29.374284        NaN  29.374284
London Westminster  29.740050  13.443568  21.491708
All                 29.430316  14.386849  24.222743
To user guide

有关 pivot_table() 的更多信息,请参阅用户指南中关于 数据透视表 的部分。

备注

如果你想知道,pivot_table() 确实直接与 groupby() 相关联。通过在 parameterlocation 上分组,可以得出相同的结果:

air_quality.groupby(["parameter", "location"])[["value"]].mean()
To user guide

宽格式到长格式#

从上一节创建的宽格式表格重新开始,我们使用 reset_index()DataFrame 添加一个新的索引。

In [16]: no2_pivoted = no2.pivot(columns="location", values="value").reset_index()

In [17]: no2_pivoted.head()
Out[17]: 
location                  date.utc  BETR801  FR04014  London Westminster
0        2019-04-09 01:00:00+00:00     22.5     24.4                 NaN
1        2019-04-09 02:00:00+00:00     53.5     27.4                67.0
2        2019-04-09 03:00:00+00:00     54.5     34.2                67.0
3        2019-04-09 04:00:00+00:00     34.5     48.5                41.0
4        2019-04-09 05:00:00+00:00     46.5     59.5                41.0
../../_images/07_melt.svg
  • 我想收集所有空气质量 \(NO_2\) 测量值在一个单独的列中(长格式)。

    In [18]: no_2 = no2_pivoted.melt(id_vars="date.utc")
    
    In [19]: no_2.head()
    Out[19]: 
                       date.utc location  value
    0 2019-04-09 01:00:00+00:00  BETR801   22.5
    1 2019-04-09 02:00:00+00:00  BETR801   53.5
    2 2019-04-09 03:00:00+00:00  BETR801   54.5
    3 2019-04-09 04:00:00+00:00  BETR801   34.5
    4 2019-04-09 05:00:00+00:00  BETR801   46.5
    

    pandas.melt() 方法在 DataFrame 上将数据表从宽格式转换为长格式。列标题成为在新创建的列中的变量名称。

解决方案是关于如何应用 pandas.melt() 的简短版本。该方法会将 id_vars 中未提及的所有列合并成两列:一列包含列头名称,另一列包含值本身。后一列默认名称为 value

传递给 pandas.melt() 的参数可以更详细地定义:

In [20]: no_2 = no2_pivoted.melt(
   ....:     id_vars="date.utc",
   ....:     value_vars=["BETR801", "FR04014", "London Westminster"],
   ....:     value_name="NO_2",
   ....:     var_name="id_location",
   ....: )
   ....: 

In [21]: no_2.head()
Out[21]: 
                   date.utc id_location  NO_2
0 2019-04-09 01:00:00+00:00     BETR801  22.5
1 2019-04-09 02:00:00+00:00     BETR801  53.5
2 2019-04-09 03:00:00+00:00     BETR801  54.5
3 2019-04-09 04:00:00+00:00     BETR801  34.5
4 2019-04-09 05:00:00+00:00     BETR801  46.5

额外的参数有以下效果:

  • value_vars 定义了哪些列要 融合 在一起

  • value_name 为值列提供了一个自定义列名,而不是默认的列名 value

  • var_name 为收集列标题名称的列提供了一个自定义列名。否则,它会采用索引名称或默认的 variable

因此,参数 value_namevar_name 只是为生成的两列定义的用户自定义名称。要熔解的列由 id_varsvalue_vars 定义。

To user guide

使用 pandas.melt() 从宽格式转换为长格式的说明在用户指南的 通过 melt 重塑 部分中进行了解释。

REMEMBER

  • 通过 sort_values 支持按一个或多个列排序。

  • pivot 函数纯粹是对数据的重组,pivot_table 支持聚合。

  • pivot 的反向操作(从长格式到宽格式)是 ``melt``(从宽格式到长格式)。

To user guide

完整的概述可以在用户指南中关于 重塑和透视 的页面中找到。