当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python dask.dataframe.DataFrame.resample用法及代码示例


用法:

DataFrame.resample(rule, closed=None, label=None)

重新采样时间序列数据。

此文档字符串是从 pandas.core.frame.DataFrame.resample 复制而来的。

可能存在与 Dask 版本的一些不一致之处。

时间序列频率转换和重采样的便捷方法。该对象必须具有 datetime-like 索引( DatetimeIndex , PeriodIndexTimedeltaIndex ),或者调用者必须将 datetime-like 系列/索引的标签传递给 on /level 关键字参数。

参数

ruleDateOffset、Timedelta 或 str

表示目标转换的偏移量字符串或对象。

axis{0 或 ‘index’,1 或 ‘columns’},默认 0(Dask 中不支持)

哪个轴用于向上或down-sampling。对于Series,这将默认为 0,即沿行。必须是 DatetimeIndex , TimedeltaIndexPeriodIndex

closed{‘right’, ‘left’},默认无

bin 区间的哪一侧是闭合的。除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”和“W”之外,所有频率偏移的默认值为 ‘left’,它们的默认值为 ‘right’。

label{‘right’, ‘left’},默认无

使用哪个 bin 边标签来标记存储桶。除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”和“W”之外,所有频率偏移的默认值为 ‘left’,它们的默认值为 ‘right’。

convention{‘start’, ‘end’, ‘s’, ‘e’},默认 ‘start’(Dask 不支持)

仅适用于 PeriodIndex,控制是使用 rule 的开头还是结尾。

kind{‘timestamp’, ‘period’},可选,默认无(Dask 不支持)

传递 ‘timestamp’ 将结果索引转换为 DateTimeIndex 或 ‘period’ 将其转换为 PeriodIndex 。默认情况下,输入表示被保留。

loffsettimedelta,默认无(在 Dask 中不支持)

调整重新采样的时间标签。

baseint,默认 0(Dask 中不支持)

对于均匀细分 1 天的频率,聚合间隔的 “origin”。例如,对于‘5min’ 频率,base 的范围可以从 0 到 4。默认为 0。

onstr,可选(在 Dask 中不支持)

对于 DataFrame,使用列而不是索引进行重采样。列必须是datetime-like。

levelstr 或 int,可选(Dask 中不支持)

对于 MultiIndex,用于重采样的级别(名称或编号)。 level 必须是 datetime-like。

origin时间戳或 str,默认 ‘start_day’(Dask 中不支持)

调整分组的时间戳。原始时区必须与索引的时区匹配。如果是字符串,则必须是以下之一:

  • ‘epoch’:origin 是 1970-01-01
  • ‘start’:origin 是时间序列的第一个值
  • ‘start_day’:origin 是时间序列午夜的第一天
  • ‘end’:origin 是时间序列的最后一个值
  • ‘end_day’:origin是最后一天的天花板午夜
offsetTimedelta 或 str,默认为 None(Dask 中不支持)

添加到原点的偏移时间增量。

返回

pandas.core.Resampler

Resampler 对象。

注意

有关更多信息,请参阅user guide

要了解有关偏移字符串的更多信息,请参阅this link

例子

首先创建一个包含 9 个一分钟时间戳的系列。

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')  
>>> series = pd.Series(range(9), index=index)  
>>> series  
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: T, dtype: int64

将系列下采样到 3 分钟的 bin 中,并将落入 bin 的时间戳的值相加。

>>> series.resample('3T').sum()  
2000-01-01 00:00:00     3
2000-01-01 00:03:00    12
2000-01-01 00:06:00    21
Freq: 3T, dtype: int64

如上所述将系列下采样到 3 分钟的 bin 中,但使用右边而不是左边标记每个 bin。请注意,用作标签的存储桶中的值不包含在它标记的存储桶中。例如,在原始系列中,桶 2000-01-01 00:03:00 包含值 3,但带有标签 2000-01-01 00:03:00 的重新采样桶中的总和值不包括 3(如果包含,则总和值为 6,而不是 3) .要包含此值,请关闭 bin 间隔的右侧,如下面的示例所示。

>>> series.resample('3T', label='right').sum()  
2000-01-01 00:03:00     3
2000-01-01 00:06:00    12
2000-01-01 00:09:00    21
Freq: 3T, dtype: int64

如上所述将序列下采样到 3 分钟的 bin 中,但关闭 bin 间隔的右侧。

>>> series.resample('3T', label='right', closed='right').sum()  
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15
Freq: 3T, dtype: int64

将系列上采样到 30 秒的 bin。

>>> series.resample('30S').asfreq()[0:5]   # Select first 5 rows  
2000-01-01 00:00:00   0.0
2000-01-01 00:00:30   NaN
2000-01-01 00:01:00   1.0
2000-01-01 00:01:30   NaN
2000-01-01 00:02:00   2.0
Freq: 30S, dtype: float64

将系列上采样到 30 秒的 bin 中,并使用 pad 方法填充 NaN 值。

>>> series.resample('30S').pad()[0:5]  
2000-01-01 00:00:00    0
2000-01-01 00:00:30    0
2000-01-01 00:01:00    1
2000-01-01 00:01:30    1
2000-01-01 00:02:00    2
Freq: 30S, dtype: int64

将系列上采样到 30 秒的 bin 中,并使用 bfill 方法填充 NaN 值。

>>> series.resample('30S').bfill()[0:5]  
2000-01-01 00:00:00    0
2000-01-01 00:00:30    1
2000-01-01 00:01:00    1
2000-01-01 00:01:30    2
2000-01-01 00:02:00    2
Freq: 30S, dtype: int64

通过apply 传递自定义函数

>>> def custom_resampler(arraylike):  
...     return np.sum(arraylike) + 5
...
>>> series.resample('3T').apply(custom_resampler)  
2000-01-01 00:00:00     8
2000-01-01 00:03:00    17
2000-01-01 00:06:00    26
Freq: 3T, dtype: int64

对于具有 PeriodIndex 的系列,可以使用关键字 convention 来控制是使用 rule 的开头还是结尾。

使用 ‘start’ convention 逐季重新采样。值分配给该期间的第一季度。

>>> s = pd.Series([1, 2], index=pd.period_range('2012-01-01',  
...                                             freq='A',
...                                             periods=2))
>>> s  
2012    1
2013    2
Freq: A-DEC, dtype: int64
>>> s.resample('Q', convention='start').asfreq()  
2012Q1    1.0
2012Q2    NaN
2012Q3    NaN
2012Q4    NaN
2013Q1    2.0
2013Q2    NaN
2013Q3    NaN
2013Q4    NaN
Freq: Q-DEC, dtype: float64

使用 ‘end’ convention 按月重新采样季度。将值分配给该期间的最后一个月。

>>> q = pd.Series([1, 2, 3, 4], index=pd.period_range('2018-01-01',  
...                                                   freq='Q',
...                                                   periods=4))
>>> q  
2018Q1    1
2018Q2    2
2018Q3    3
2018Q4    4
Freq: Q-DEC, dtype: int64
>>> q.resample('M', convention='end').asfreq()  
2018-03    1.0
2018-04    NaN
2018-05    NaN
2018-06    2.0
2018-07    NaN
2018-08    NaN
2018-09    3.0
2018-10    NaN
2018-11    NaN
2018-12    4.0
Freq: M, dtype: float64

对于 DataFrame 对象,可以使用关键字on 来指定列而不是重新采样的索引。

>>> d = {'price': [10, 11, 9, 13, 14, 18, 17, 19],  
...      'volume': [50, 60, 40, 100, 50, 100, 40, 50]}
>>> df = pd.DataFrame(d)  
>>> df['week_starting'] = pd.date_range('01/01/2018',  
...                                     periods=8,
...                                     freq='W')
>>> df  
   price  volume week_starting
0     10      50    2018-01-07
1     11      60    2018-01-14
2      9      40    2018-01-21
3     13     100    2018-01-28
4     14      50    2018-02-04
5     18     100    2018-02-11
6     17      40    2018-02-18
7     19      50    2018-02-25
>>> df.resample('M', on='week_starting').mean()  
               price  volume
week_starting
2018-01-31     10.75    62.5
2018-02-28     17.00    60.0

对于具有 MultiIndex 的 DataFrame,关键字level 可用于指定需要在哪个级别进行重采样。

>>> days = pd.date_range('1/1/2000', periods=4, freq='D')  
>>> d2 = {'price': [10, 11, 9, 13, 14, 18, 17, 19],  
...       'volume': [50, 60, 40, 100, 50, 100, 40, 50]}
>>> df2 = pd.DataFrame(  
...     d2,
...     index=pd.MultiIndex.from_product(
...         [days, ['morning', 'afternoon']]
...     )
... )
>>> df2  
                      price  volume
2000-01-01 morning       10      50
           afternoon     11      60
2000-01-02 morning        9      40
           afternoon     13     100
2000-01-03 morning       14      50
           afternoon     18     100
2000-01-04 morning       17      40
           afternoon     19      50
>>> df2.resample('D', level=0).sum()  
            price  volume
2000-01-01     21     110
2000-01-02     22     140
2000-01-03     32     150
2000-01-04     36      90

如果要根据固定时间戳调整 bin 的开始:

>>> start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00'  
>>> rng = pd.date_range(start, end, freq='7min')  
>>> ts = pd.Series(np.arange(len(rng)) * 3, index=rng)  
>>> ts  
2000-10-01 23:30:00     0
2000-10-01 23:37:00     3
2000-10-01 23:44:00     6
2000-10-01 23:51:00     9
2000-10-01 23:58:00    12
2000-10-02 00:05:00    15
2000-10-02 00:12:00    18
2000-10-02 00:19:00    21
2000-10-02 00:26:00    24
Freq: 7T, dtype: int64
>>> ts.resample('17min').sum()  
2000-10-01 23:14:00     0
2000-10-01 23:31:00     9
2000-10-01 23:48:00    21
2000-10-02 00:05:00    54
2000-10-02 00:22:00    24
Freq: 17T, dtype: int64
>>> ts.resample('17min', origin='epoch').sum()  
2000-10-01 23:18:00     0
2000-10-01 23:35:00    18
2000-10-01 23:52:00    27
2000-10-02 00:09:00    39
2000-10-02 00:26:00    24
Freq: 17T, dtype: int64
>>> ts.resample('17min', origin='2000-01-01').sum()  
2000-10-01 23:24:00     3
2000-10-01 23:41:00    15
2000-10-01 23:58:00    45
2000-10-02 00:15:00    45
Freq: 17T, dtype: int64

如果要使用 offset Timedelta 调整 bin 的开始,则以下两行是等效的:

>>> ts.resample('17min', origin='start').sum()  
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17T, dtype: int64
>>> ts.resample('17min', offset='23h30min').sum()  
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq: 17T, dtype: int64

如果您想将最大的 Timestamp 作为 bin 的结尾:

>>> ts.resample('17min', origin='end').sum()  
2000-10-01 23:35:00     0
2000-10-01 23:52:00    18
2000-10-02 00:09:00    27
2000-10-02 00:26:00    63
Freq: 17T, dtype: int64

start_day 相比,您可以使用 end_day 将最大 Timestamp 的天花板午夜作为 bin 的结尾,并删除不包含数据的 bin:

>>> ts.resample('17min', origin='end_day').sum()  
2000-10-01 23:38:00     3
2000-10-01 23:55:00    15
2000-10-02 00:12:00    45
2000-10-02 00:29:00    45
Freq: 17T, dtype: int64

要替换已弃用的 base 参数的使用,您现在可以使用 offset ,在此示例中等效于 base=2

>>> ts.resample('17min', offset='2min').sum()  
2000-10-01 23:16:00     0
2000-10-01 23:33:00     9
2000-10-01 23:50:00    36
2000-10-02 00:07:00    39
2000-10-02 00:24:00    24
Freq: 17T, dtype: int64

要替换已弃用的 loffset 参数的使用:

>>> from pandas.tseries.frequencies import to_offset  
>>> loffset = '19min'  
>>> ts_out = ts.resample('17min').sum()  
>>> ts_out.index = ts_out.index + to_offset(loffset)  
>>> ts_out  
2000-10-01 23:33:00     0
2000-10-01 23:50:00     9
2000-10-02 00:07:00    21
2000-10-02 00:24:00    54
2000-10-02 00:41:00    24
Freq: 17T, dtype: int64

相关用法


注:本文由纯净天空筛选整理自dask.org大神的英文原创作品 dask.dataframe.DataFrame.resample。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。