Python pandas.Series.resample用法及代碼示例

用法: Series.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, base=None, on=None, level=None, origin='start_day', offset=None)

重新采樣時間序列數據。

時間序列頻率轉換和重采樣的便捷方法。對象必須具有 datetime-like 索引(DatetimeIndex、PeriodIndex 或 TimedeltaIndex)，或者調用者必須將 datetime-like 係列/索引的標簽傳遞給 on /level 關鍵字參數.

參數：

rule：DateOffset、Timedelta 或 str

表示目標轉換的偏移量字符串或對象。

axis：{0 或 ‘index’，1 或 ‘columns’}，默認 0

哪個軸用於向上或down-sampling。對於Series，這將默認為 0，即沿行。必須是 DatetimeIndex 、 TimedeltaIndex 或 PeriodIndex 。

closed：{‘right’, ‘left’}，默認無

bin 區間的哪一側是閉合的。除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”和“W”之外，所有頻率偏移的默認值為 ‘left’，它們的默認值為 ‘right’。

label：{‘right’, ‘left’}，默認無

使用哪個 bin 邊標簽來標記存儲桶。除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”和“W”之外，所有頻率偏移的默認值為 ‘left’，它們的默認值為 ‘right’。

convention：{‘start’, ‘end’, ‘s’, ‘e’}，默認 ‘start’

僅適用於 PeriodIndex，控製是使用 rule 的開頭還是結尾。

kind：{‘timestamp’, ‘period’}，可選，默認無

傳遞 ‘timestamp’ 將結果索引轉換為 DateTimeIndex 或 ‘period’ 將其轉換為 PeriodIndex 。默認情況下，輸入表示被保留。

loffset：時間增量，默認無

調整重新采樣的時間標簽。

base：整數，默認 0

對於均勻細分 1 天的頻率，聚合間隔的 “origin”。例如，對於‘5min’ 頻率，base 的範圍可以從 0 到 4。默認為 0。

on：str，可選

對於 DataFrame，使用列而不是索引進行重采樣。列必須是datetime-like。

level：str 或 int，可選

對於 MultiIndex，用於重采樣的級別(名稱或編號)。 level 必須是 datetime-like。

origin：時間戳或str，默認‘start_day’

調整分組的時間戳。原始時區必須與索引的時區匹配。如果是字符串，則必須是以下之一：

‘epoch’：origin 是 1970-01-01
‘start’：origin 是時間序列的第一個值
‘start_day’：origin 是時間序列午夜的第一天

‘end’：origin 是時間序列的最後一個值
‘end_day’：origin是最後一天的天花板午夜

offset：Timedelta 或 str，默認為 None

添加到原點的偏移時間增量。

pandas.core.Resampler: Resampler 對象。

注意：

有關更多信息，請參閱用戶指南。

要了解有關偏移字符串的更多信息，請參閱此鏈接。

例子：

首先創建一個包含 9 個一分鍾時間戳的係列。

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq:T, dtype:int64

將係列下采樣到 3 分鍾的 bin 中，並將落入 bin 的時間戳的值相加。

>>> series.resample('3T').sum()
2000-01-01 00:00:00     3
2000-01-01 00:03:00    12
2000-01-01 00:06:00    21
Freq:3T, dtype:int64

如上所述將係列下采樣到 3 分鍾的 bin 中，但使用右邊而不是左邊標記每個 bin。請注意，用作標簽的存儲桶中的值不包含在它標記的存儲桶中。例如，在原始係列中，桶 2000-01-01 00:03:00 包含值 3，但帶有標簽 2000-01-01 00:03:00 的重新采樣桶中的總和值不包括 3(如果包含，則總和值為 6，而不是 3) .要包含此值，請關閉 bin 間隔的右側，如下麵的示例所示。

>>> series.resample('3T', label='right').sum()
2000-01-01 00:03:00     3
2000-01-01 00:06:00    12
2000-01-01 00:09:00    21
Freq:3T, dtype:int64

如上所述將序列下采樣到 3 分鍾的 bin 中，但關閉 bin 間隔的右側。

>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15
Freq:3T, dtype:int64

將係列上采樣到 30 秒的 bin。

>>> series.resample('30S').asfreq()[0:5]   # Select first 5 rows
2000-01-01 00:00:00   0.0
2000-01-01 00:00:30   NaN
2000-01-01 00:01:00   1.0
2000-01-01 00:01:30   NaN
2000-01-01 00:02:00   2.0
Freq:30S, dtype:float64

將係列上采樣到 30 秒的 bin 中，並使用 pad 方法填充 NaN 值。

>>> series.resample('30S').pad()[0:5]
2000-01-01 00:00:00    0
2000-01-01 00:00:30    0
2000-01-01 00:01:00    1
2000-01-01 00:01:30    1
2000-01-01 00:02:00    2
Freq:30S, dtype:int64

將係列上采樣到 30 秒的 bin 中，並使用 bfill 方法填充 NaN 值。

>>> series.resample('30S').bfill()[0:5]
2000-01-01 00:00:00    0
2000-01-01 00:00:30    1
2000-01-01 00:01:00    1
2000-01-01 00:01:30    2
2000-01-01 00:02:00    2
Freq:30S, dtype:int64

通過apply 傳遞自定義函數

>>> def custom_resampler(arraylike):
...     return np.sum(arraylike) + 5
...
>>> series.resample('3T').apply(custom_resampler)
2000-01-01 00:00:00     8
2000-01-01 00:03:00    17
2000-01-01 00:06:00    26
Freq:3T, dtype:int64

對於具有 PeriodIndex 的係列，可以使用關鍵字 convention 來控製是使用 rule 的開頭還是結尾。

使用 ‘start’ convention 逐季重新采樣。值分配給該期間的第一季度。

>>> s = pd.Series([1, 2], index=pd.period_range('2012-01-01',
...                                             freq='A',
...                                             periods=2))
>>> s
2012    1
2013    2
Freq:A-DEC, dtype:int64
>>> s.resample('Q', convention='start').asfreq()
2012Q1    1.0
2012Q2    NaN
2012Q3    NaN
2012Q4    NaN
2013Q1    2.0
2013Q2    NaN
2013Q3    NaN
2013Q4    NaN
Freq:Q-DEC, dtype:float64

使用 ‘end’ convention 按月重新采樣季度。將值分配給該期間的最後一個月。

>>> q = pd.Series([1, 2, 3, 4], index=pd.period_range('2018-01-01',
...                                                   freq='Q',
...                                                   periods=4))
>>> q
2018Q1    1
2018Q2    2
2018Q3    3
2018Q4    4
Freq:Q-DEC, dtype:int64
>>> q.resample('M', convention='end').asfreq()
2018-03    1.0
2018-04    NaN
2018-05    NaN
2018-06    2.0
2018-07    NaN
2018-08    NaN
2018-09    3.0
2018-10    NaN
2018-11    NaN
2018-12    4.0
Freq:M, dtype:float64

對於 DataFrame 對象，可以使用關鍵字on 來指定列而不是重新采樣的索引。

>>> d = {'price':[10, 11, 9, 13, 14, 18, 17, 19],
...      'volume':[50, 60, 40, 100, 50, 100, 40, 50]}
>>> df = pd.DataFrame(d)
>>> df['week_starting'] = pd.date_range('01/01/2018',
...                                     periods=8,
...                                     freq='W')
>>> df
   price  volume week_starting
0     10      50    2018-01-07
1     11      60    2018-01-14
2      9      40    2018-01-21
3     13     100    2018-01-28
4     14      50    2018-02-04
5     18     100    2018-02-11
6     17      40    2018-02-18
7     19      50    2018-02-25
>>> df.resample('M', on='week_starting').mean()
               price  volume
week_starting
2018-01-31     10.75    62.5
2018-02-28     17.00    60.0

對於具有 MultiIndex 的 DataFrame，關鍵字level 可用於指定需要在哪個級別進行重采樣。

>>> days = pd.date_range('1/1/2000', periods=4, freq='D')
>>> d2 = {'price':[10, 11, 9, 13, 14, 18, 17, 19],
...       'volume':[50, 60, 40, 100, 50, 100, 40, 50]}
>>> df2 = pd.DataFrame(
...     d2,
...     index=pd.MultiIndex.from_product(
...         [days, ['morning', 'afternoon']]
...     )
... )
>>> df2
                      price  volume
2000-01-01 morning       10      50
           afternoon     11      60
2000-01-02 morning        9      40
           afternoon     13     100
2000-01-03 morning       14      50
           afternoon     18     100
2000-01-04 morning       17      40
           afternoon     19      50
>>> df2.resample('D', level=0).sum()
            price  volume
2000-01-01     21     110
2000-01-02     22     140
2000-01-03     32     150
2000-01-04     36      90

如果要根據固定時間戳調整 bin 的開始：

>>> start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00'
>>> rng = pd.date_range(start, end, freq='7min')
>>> ts = pd.Series(np.arange(len(rng)) * 3, index=rng)
>>> ts
2000-10-01 23:30:00     0
2000-10-01 23:37:00     3
2000-10-01 23:44:00     6
2000-10-01 23:51:00     9
2000-10-01 23:58:00    12
2000-10-02 00:05:00    15
2000-10-02 00:12:00    18
2000-10-02 00:19:00    21
2000-10-02 00:26:00    24
Freq:7T, dtype:int64

>>> ts.resample('17min').sum()
2000-10-01 23:14:00     0
2000-10-01 23:31:00     9
2000-10-01 23:48:00    21
2000-10-02 00:05:00    54
2000-10-02 00:22:00    24
Freq:17T, dtype:int64

>>> ts.resample('17min', origin='epoch').sum()
2000-10-01 23:18:00     0
2000-10-01 23:35:00    18
2000-10-01 23:52:00    27
2000-10-02 00:09:00    39
2000-10-02 00:26:00    24
Freq:17T, dtype:int64

>>> ts.resample('17min', origin='2000-01-01').sum()
2000-10-01 23:24:00     3
2000-10-01 23:41:00    15
2000-10-01 23:58:00    45
2000-10-02 00:15:00    45
Freq:17T, dtype:int64

如果要使用 offset Timedelta 調整 bin 的開始，則以下兩行是等效的：

>>> ts.resample('17min', origin='start').sum()
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq:17T, dtype:int64

>>> ts.resample('17min', offset='23h30min').sum()
2000-10-01 23:30:00     9
2000-10-01 23:47:00    21
2000-10-02 00:04:00    54
2000-10-02 00:21:00    24
Freq:17T, dtype:int64

如果您想將最大的 Timestamp 作為 bin 的結尾：

>>> ts.resample('17min', origin='end').sum()
2000-10-01 23:35:00     0
2000-10-01 23:52:00    18
2000-10-02 00:09:00    27
2000-10-02 00:26:00    63
Freq:17T, dtype:int64

與 start_day 相比，您可以使用 end_day 將最大 Timestamp 的天花板午夜作為 bin 的結尾，並刪除不包含數據的 bin：

>>> ts.resample('17min', origin='end_day').sum()
2000-10-01 23:38:00     3
2000-10-01 23:55:00    15
2000-10-02 00:12:00    45
2000-10-02 00:29:00    45
Freq:17T, dtype:int64

要替換已棄用的 base 參數的使用，您現在可以使用 offset ，在此示例中等效於 base=2 ：

>>> ts.resample('17min', offset='2min').sum()
2000-10-01 23:16:00     0
2000-10-01 23:33:00     9
2000-10-01 23:50:00    36
2000-10-02 00:07:00    39
2000-10-02 00:24:00    24
Freq:17T, dtype:int64

要替換已棄用的 loffset 參數的使用：

>>> from pandas.tseries.frequencies import to_offset
>>> loffset = '19min'
>>> ts_out = ts.resample('17min').sum()
>>> ts_out.index = ts_out.index + to_offset(loffset)
>>> ts_out
2000-10-01 23:33:00     0
2000-10-01 23:50:00     9
2000-10-02 00:07:00    21
2000-10-02 00:24:00    54
2000-10-02 00:41:00    24
Freq:17T, dtype:int64

相關用法

注：本文由純淨天空篩選整理自pandas.pydata.org大神的英文原創作品 pandas.Series.resample。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。

用法:

參數：

返回：

注意：

例子：