pandas.DataFrame.resample#

DataFrame.resample(rule, closed=None, label=None, convention=<no_default>, on=None, level=None, origin='start_day', offset=None, group_keys=False)[源代码]#

重采样时间序列数据。

用于时间序列的频率转换和重采样的便捷方法。对象必须具有类似日期时间的索引(DatetimeIndexPeriodIndexTimedeltaIndex),或者调用者必须在 on/level 关键字参数中传递类似日期时间序列/索引的标签。

参数:
规则DateOffset, Timedelta 或 str

表示目标转换的偏移字符串或对象。

关闭{‘right’, ‘left’}, 默认 None

哪个边界的箱区间是封闭的。默认是 ‘left’ 对于所有频率偏移,除了 ‘ME’, ‘YE’, ‘QE’, ‘BME’, ‘BA’, ‘BQE’, 和 ‘W’ 这些默认是 ‘right’。

标签{‘right’, ‘left’}, 默认 None

哪个 bin 边缘标签用于标记桶。默认值为 ‘left’,除了 ‘ME’、’YE’、’QE’、’BME’、’BA’、’BQE’ 和 ‘W’ 之外,这些的默认值为 ‘right’。

惯例{‘start’, ‘end’, ‘s’, ‘e’},默认 ‘start’

仅对于 PeriodIndex,控制是否使用 rule 的开始或结束。

自 2.2.0 版本弃用: 在重采样之前将 PeriodIndex 转换为 DatetimeIndex。

str, 可选

对于一个 DataFrame,用于重采样的列,而不是索引。列必须是类日期时间类型。

级别str 或 int,可选

对于 MultiIndex,用于重采样的级别(名称或编号)。level 必须是类日期时间类型。

起源时间戳或字符串,默认 ‘start_day’

用于调整分组的时戳。原时区必须与索引时区匹配。如果是字符串,必须是可转换为时戳的或以下之一:

  • ‘epoch’: origin 是 1970-01-01

  • ‘start’: origin 是时间序列的第一个值

  • ‘start_day’: origin 是时间序列在午夜的第一天

  • ‘end’: origin 是时间序列的最后一个值

  • ‘end_day’: origin 是最后一天的午夜上限

Added in version 1.3.0.

备注

仅对Tick频率(即固定频率,如天、小时和分钟,而不是月或季度)有效。

offsetTimedelta 或 str, 默认是 None

一个添加到原点的偏移时间增量。

group_keys布尔值, 默认为 False

在使用 .apply() 对重采样对象进行操作时,是否在结果索引中包含组键。

Added in version 1.5.0: 不指定 group_keys 将保留来自 pandas 1.4 及更早版本的值依赖行为(参见 pandas 1.5.0 发行说明 中的示例)。

在 2.0.0 版本发生变更: group_keys 现在默认为 False

返回:
pandas.api.typing.Resampler

Resampler 对象。

参见

Series.resample

重采样一个序列。

DataFrame.resample

重采样一个 DataFrame。

groupby

按映射、函数、标签或标签列表对 Series/DataFrame 进行分组。

asfreq

使用给定的频率重新索引一个 Series/DataFrame,而不进行分组。

备注

更多信息请参见 用户指南

要了解更多关于偏移字符串的信息,请参见 这个链接

示例

首先创建一个包含9个一分钟时间戳的系列。

>>> index = pd.date_range("1/1/2000", periods=9, freq="min")
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: min, dtype: int64

将序列下采样到3分钟的时间箱中,并累加落入该时间箱的时间戳的值。

>>> series.resample("3min").sum()
2000-01-01 00:00:00     3
2000-01-01 00:03:00    12
2000-01-01 00:06:00    21
Freq: 3min, dtype: int64

将序列按上述方法降采样到3分钟区间,但使用右边缘来标记每个区间。请注意,用作标签的区间中的值不包含在该区间中,它标记的区间中。例如,在原始序列中,区间 2000-01-01 00:03:00 包含值 3,但重采样区间中标签为 2000-01-01 00:03:00 的总和值不包括 3(如果包括,总和值将是 6,而不是 3)。

>>> series.resample("3min", label="right").sum()
2000-01-01 00:03:00     3
2000-01-01 00:06:00    12
2000-01-01 00:09:00    21
Freq: 3min, dtype: int64

要包括这个值关闭二进制区间的右侧,如下所示。

>>> series.resample("3min", label="right", closed="right").sum()
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15
Freq: 3min, dtype: int64

将序列上采样到30秒的箱中。

>>> series.resample("30s").asfreq()[0:5]  # Select first 5 rows
2000-01-01 00:00:00   0.0
2000-01-01 00:00:30   NaN
2000-01-01 00:01:00   1.0
2000-01-01 00:01:30   NaN
2000-01-01 00:02:00   2.0
Freq: 30s, dtype: float64

将序列上采样到30秒的箱中,并使用 ffill 方法填充 NaN 值。

>>> series.resample("30s").ffill()[0:5]
2000-01-01 00:00:00    0
2000-01-01 00:00:30    0
2000-01-01 00:01:00    1
2000-01-01 00:01:30    1
2000-01-01 00:02:00    2
Freq: 30s, dtype: int64

将序列上采样到30秒的箱中,并使用 bfill 方法填充 NaN 值。

>>> series.resample("30s").bfill()[0:5]
2000-01-01 00:00:00    0
2000-01-01 00:00:30    1
2000-01-01 00:01:00    1
2000-01-01 00:01:30    2
2000-01-01 00:02:00    2
Freq: 30s, dtype: int64

通过 apply 传递自定义函数

>>> def custom_resampler(arraylike):
...     return np.sum(arraylike) + 5
>>> series.resample("3min").apply(custom_resampler)
2000-01-01 00:00:00     8
2000-01-01 00:03:00    17
2000-01-01 00:06:00    26
Freq: 3min, dtype: int64

对于 DataFrame 对象,关键字 on 可以用于指定重采样时使用的列,而不是索引。

>>> df = pd.DataFrame([10, 11, 9, 13, 14, 18, 17, 19], columns=["price"])
>>> df["volume"] = [50, 60, 40, 100, 50, 100, 40, 50]
>>> df["week_starting"] = pd.date_range("01/01/2018", periods=8, freq="W")
>>> df
   price  volume week_starting
0     10      50    2018-01-07
1     11      60    2018-01-14
2      9      40    2018-01-21
3     13     100    2018-01-28
4     14      50    2018-02-04
5     18     100    2018-02-11
6     17      40    2018-02-18
7     19      50    2018-02-25
>>> df.resample("ME", on="week_starting").mean()
               price  volume
week_starting
2018-01-31     10.75    62.5
2018-02-28     17.00    60.0

对于具有 MultiIndex 的 DataFrame,可以使用关键字 level 来指定在哪个级别上进行重采样。

>>> days = pd.date_range("1/1/2000", periods=4, freq="D")
>>> df2 = pd.DataFrame(
...     [
...         [10, 50],
...         [11, 60],
...         [9, 40],
...         [13, 100],
...         [14, 50],
...         [18, 100],
...         [17, 40],
...         [19, 50],
...     ],
...     columns=["price", "volume"],
...     index=pd.MultiIndex.from_product([days, ["morning", "afternoon"]]),
... )
>>> df2
                      price  volume
2000-01-01 morning       10      50
           afternoon     11      60
2000-01-02 morning        9      40
           afternoon     13     100
2000-01-03 morning       14      50
           afternoon     18     100
2000-01-04 morning       17      40
           afternoon     19      50
>>> df2.resample("D", level=0).sum()
            price  volume
2000-01-01     21     110
2000-01-02     22     140
2000-01-03     32     150
2000-01-04     36      90

如果你想根据一个固定的时间戳调整分箱的起始点:

>>> start, end = "2000-10-01 23:30:00", "2000-10-02 00:30:00"
>>> rng = pd.date_range(start, end, freq="7min")
>>> ts = pd.Series(np.arange(len(rng)) * 3, index=rng)
>>> ts
2000-10-01 23:30:00     0
2000-10-01 23:37:00     3
2000-10-01 23:44:00     6
2000-10-01 23:51:00     9
2000-10-01 23:58:00    12
2000-10-02 00:05:00    15
2000-10-02 00:12:00    18
2000-10-02 00:19:00    21
2000-10-02 00:26:00    24
Freq: 7min, dtype: int64
>>> ts.resample("17min").sum()
2000-10-01 23:14:00     0
2000-10-01 23:31:00     9
2000-10-01 23:48:00    21
2000-10-02 00:05:00    54
2000-10-02 00:22:00    24
Freq: 17min, dtype: int64
>>> ts.resample("17min", origin="epoch").sum()
2000-10-01 23:18:00     0
2000-10-01 23:35:00    18
2000-10-01 23:52:00    27
2000-10-02 00:09:00    39
2000-10-02 00:26:00    24
Freq: 17min, dtype: int64
>>> ts.resample("17min", origin="2000-01-01").sum()
2000-10-01 23:24:00     3
2000-10-01 23:41:00    15
2000-10-01 23:58:00    45
2000-10-02 00:15:00    45
Freq: 17min, dtype: int64

如果你想用 offset Timedelta 调整 bin 的开始,以下两行是等效的:

>>> ts.resample("17min", origin="start").sum()
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17min, dtype: int64
>>> ts.resample("17min", offset="23h30min").sum()
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17min, dtype: int64

如果你想将最大的时间戳作为箱子的结束:

>>> ts.resample("17min", origin="end").sum()
2000-10-01 23:35:00     0
2000-10-01 23:52:00    18
2000-10-02 00:09:00    27
2000-10-02 00:26:00    63
Freq: 17min, dtype: int64

start_day 相对,你可以使用 end_day 来取最大时间戳的午夜上限作为区间的结束,并删除不包含数据的区间:

>>> ts.resample("17min", origin="end_day").sum()
2000-10-01 23:38:00     3
2000-10-01 23:55:00    15
2000-10-02 00:12:00    45
2000-10-02 00:29:00    45
Freq: 17min, dtype: int64