dask.dataframe.DataFrame.resample

dask.dataframe.DataFrame.resample¶

DataFrame.resample(rule, closed=None, label=None)¶

重采样时间序列数据。

此文档字符串是从 pandas.core.frame.DataFrame.resample 复制而来的。

Dask 版本可能存在一些不一致性。

用于时间序列的频率转换和重采样的便捷方法。对象必须具有类似日期时间的索引（DatetimeIndex、PeriodIndex 或 TimedeltaIndex），或者调用者必须将类似日期时间的序列/索引的标签传递给 on/level 关键字参数。

参数

规则DateOffset, Timedelta 或 str

表示目标转换的偏移字符串或对象。

轴{0 或 ‘index’, 1 或 ‘columns’}, 默认 0 (在 Dask 中不支持)

用于上采样或下采样的轴。对于 Series，此参数未使用并默认为 0。必须是 DatetimeIndex、TimedeltaIndex 或 PeriodIndex。

2.0.0 版后已移除: 使用 frame.T.resample(…) 代替。

关闭{‘right’, ‘left’}, 默认 None

二进制区间的哪一侧是闭合的。默认值为 ‘left’，但对于 ‘ME’、’YE’、’QE’、’BME’、’BA’、’BQE’ 和 ‘W’ 这些频率偏移，默认值为 ‘right’。

标签{‘right’, ‘left’}, 默认 None

使用哪个边缘标签来标记桶。默认值为 ‘left’，适用于所有频率偏移，除了 ‘ME’、’YE’、’QE’、’BME’、’BA’、’BQE’ 和 ‘W’，这些的默认值为 ‘right’。

约定{‘start’, ‘end’, ‘s’, ‘e’}，默认值为 ‘start’ （Dask 中不支持）

仅对于 PeriodIndex，控制是否使用 rule 的开始或结束。

2.2.0 版后已移除: 在重采样之前，先将 PeriodIndex 转换为 DatetimeIndex。

种类{‘timestamp’, ‘period’}, 可选, 默认 None (Dask 中不支持)

传递 ‘timestamp’ 将结果索引转换为 DateTimeIndex，或传递 ‘period’ 将其转换为 PeriodIndex。默认情况下保留输入表示形式。

2.2.0 版后已移除: 显式地将索引转换为所需类型。

开str, 可选 (Dask 中不支持)

对于 DataFrame，用于重采样的列，而不是索引。列必须是类日期时间类型。

级别str 或 int, 可选 (Dask 中不支持)

对于 MultiIndex，用于重采样的级别（名称或编号）。level 必须是类日期时间类型。

起源Timestamp 或 str，默认 ‘start_day’ （Dask 中不支持）

用于调整分组的时间戳。原时区必须与索引时区匹配。如果是字符串，必须是以下之一：

‘epoch’: origin 是 1970-01-01
‘start’: origin 是时间序列的第一个值
‘start_day’: origin 是时间序列在午夜的第一天
‘end’: origin 是时间序列的最后一个值
‘end_day’: origin 是最后一天的午夜上限

1.3.0 新版功能.

备注

仅对Tick频率（即固定频率，如天、小时和分钟，而不是月或季度）生效。

偏移量Timedelta 或 str, 默认是 None (Dask 中不支持)

添加到原点的偏移时间增量。

group_keysbool, 默认 False (Dask 中不支持)

在使用 .apply() 对重采样对象进行操作时，是否在结果索引中包含组键。

1.5.0 新版功能: 不指定 group_keys 将保留来自 pandas 1.4 及更早版本的值依赖行为（参见 pandas 1.5.0 发布说明中的示例）。

在 2.0.0 版更改: group_keys 现在默认为 False。

返回

pandas.api.typing.Resampler: Resampler 对象。

参见

Series.resample: 重采样一个序列。
DataFrame.resample: 重采样一个 DataFrame。
groupby: 通过映射、函数、标签或标签列表对 Series/DataFrame 进行分组。
asfreq: 使用给定的频率对 Series/DataFrame 进行重新索引，而不进行分组。

注释

更多信息请参见用户指南。

要了解更多关于偏移字符串的信息，请参见此链接。

示例

首先创建一个包含9个一分钟时间戳的系列。

>>> index = pd.date_range('1/1/2000', periods=9, freq='min')  
>>> series = pd.Series(range(9), index=index)  
>>> series  
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: min, dtype: int64

将序列降采样到3分钟的时间箱，并将落入同一时间箱的时间戳的值求和。

>>> series.resample('3min').sum()  
2000-01-01 00:00:00     3
2000-01-01 00:03:00    12
2000-01-01 00:06:00    21
Freq: 3min, dtype: int64

将序列按上述方法降采样为3分钟的时间箱，但使用右边缘来标记每个时间箱。请注意，用作标签的时间箱中的值不包含在该时间箱中，它所标记的时间箱中。例如，在原始序列中，时间箱 2000-01-01 00:03:00 包含值3，但重新采样后标记为 2000-01-01 00:03:00 的时间箱的总和值不包括3（如果包括，总和值将是6，而不是3）。

>>> series.resample('3min', label='right').sum()  
2000-01-01 00:03:00     3
2000-01-01 00:06:00    12
2000-01-01 00:09:00    21
Freq: 3min, dtype: int64

要包含此值，请关闭二进制区间的右侧，如下所示。

>>> series.resample('3min', label='right', closed='right').sum()  
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15
Freq: 3min, dtype: int64

将序列上采样到30秒的区间。

>>> series.resample('30s').asfreq()[0:5]   # Select first 5 rows  
2000-01-01 00:00:00   0.0
2000-01-01 00:00:30   NaN
2000-01-01 00:01:00   1.0
2000-01-01 00:01:30   NaN
2000-01-01 00:02:00   2.0
Freq: 30s, dtype: float64

将序列上采样到30秒的区间，并使用``ffill``方法填充``NaN``值。

>>> series.resample('30s').ffill()[0:5]  
2000-01-01 00:00:00    0
2000-01-01 00:00:30    0
2000-01-01 00:01:00    1
2000-01-01 00:01:30    1
2000-01-01 00:02:00    2
Freq: 30s, dtype: int64

将序列上采样到30秒的区间，并使用``bfill``方法填充``NaN``值。

>>> series.resample('30s').bfill()[0:5]  
2000-01-01 00:00:00    0
2000-01-01 00:00:30    1
2000-01-01 00:01:00    1
2000-01-01 00:01:30    2
2000-01-01 00:02:00    2
Freq: 30s, dtype: int64

通过 apply 传递自定义函数

>>> def custom_resampler(arraylike):  
...     return np.sum(arraylike) + 5
...
>>> series.resample('3min').apply(custom_resampler)  
2000-01-01 00:00:00     8
2000-01-01 00:03:00    17
2000-01-01 00:06:00    26
Freq: 3min, dtype: int64

对于 DataFrame 对象，可以使用关键字 on 来指定列而不是索引进行重采样。

>>> d = {'price': [10, 11, 9, 13, 14, 18, 17, 19],  
...      'volume': [50, 60, 40, 100, 50, 100, 40, 50]}
>>> df = pd.DataFrame(d)  
>>> df['week_starting'] = pd.date_range('01/01/2018',  
...                                     periods=8,
...                                     freq='W')
>>> df  
   price  volume week_starting
0     10      50    2018-01-07
1     11      60    2018-01-14
2      9      40    2018-01-21
3     13     100    2018-01-28
4     14      50    2018-02-04
5     18     100    2018-02-11
6     17      40    2018-02-18
7     19      50    2018-02-25
>>> df.resample('ME', on='week_starting').mean()  
               price  volume
week_starting
2018-01-31     10.75    62.5
2018-02-28     17.00    60.0

对于具有 MultiIndex 的 DataFrame，可以使用关键字 level 来指定重采样需要在哪个级别进行。

>>> days = pd.date_range('1/1/2000', periods=4, freq='D')  
>>> d2 = {'price': [10, 11, 9, 13, 14, 18, 17, 19],  
...       'volume': [50, 60, 40, 100, 50, 100, 40, 50]}
>>> df2 = pd.DataFrame(  
...     d2,
...     index=pd.MultiIndex.from_product(
...         [days, ['morning', 'afternoon']]
...     )
... )
>>> df2  
                      price  volume
2000-01-01 morning       10      50
           afternoon     11      60
2000-01-02 morning        9      40
           afternoon     13     100
2000-01-03 morning       14      50
           afternoon     18     100
2000-01-04 morning       17      40
           afternoon     19      50
>>> df2.resample('D', level=0).sum()  
            price  volume
2000-01-01     21     110
2000-01-02     22     140
2000-01-03     32     150
2000-01-04     36      90

如果你想根据一个固定的时间戳调整分箱的起始点：

>>> start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00'  
>>> rng = pd.date_range(start, end, freq='7min')  
>>> ts = pd.Series(np.arange(len(rng)) * 3, index=rng)  
>>> ts  
2000-10-01 23:30:00     0
2000-10-01 23:37:00     3
2000-10-01 23:44:00     6
2000-10-01 23:51:00     9
2000-10-01 23:58:00    12
2000-10-02 00:05:00    15
2000-10-02 00:12:00    18
2000-10-02 00:19:00    21
2000-10-02 00:26:00    24
Freq: 7min, dtype: int64

>>> ts.resample('17min').sum()  
2000-10-01 23:14:00     0
2000-10-01 23:31:00     9
2000-10-01 23:48:00    21
2000-10-02 00:05:00    54
2000-10-02 00:22:00    24
Freq: 17min, dtype: int64

>>> ts.resample('17min', origin='epoch').sum()  
2000-10-01 23:18:00     0
2000-10-01 23:35:00    18
2000-10-01 23:52:00    27
2000-10-02 00:09:00    39
2000-10-02 00:26:00    24
Freq: 17min, dtype: int64

>>> ts.resample('17min', origin='2000-01-01').sum()  
2000-10-01 23:24:00     3
2000-10-01 23:41:00    15
2000-10-01 23:58:00    45
2000-10-02 00:15:00    45
Freq: 17min, dtype: int64

如果你想用 offset Timedelta 调整分箱的开始，以下两行是等效的：

>>> ts.resample('17min', origin='start').sum()  
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17min, dtype: int64

>>> ts.resample('17min', offset='23h30min').sum()  
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17min, dtype: int64

如果你想以最大的时间戳作为分箱的结束：

>>> ts.resample('17min', origin='end').sum()  
2000-10-01 23:35:00     0
2000-10-01 23:52:00    18
2000-10-02 00:09:00    27
2000-10-02 00:26:00    63
Freq: 17min, dtype: int64

与 start_day 相反，你可以使用 end_day 来将最大的时间戳的午夜作为区间的结束，并删除不包含数据的区间：

>>> ts.resample('17min', origin='end_day').sum()  
2000-10-01 23:38:00     3
2000-10-01 23:55:00    15
2000-10-02 00:12:00    45
2000-10-02 00:29:00    45
Freq: 17min, dtype: int64

dask.dataframe.DataFrame.replace

dask.dataframe.DataFrame.reset_index