用法:
DataFrame.resample(rule, closed=None, label=None)
重新采樣時間序列數據。
此文檔字符串是從 pandas.core.frame.DataFrame.resample 複製而來的。
可能存在與 Dask 版本的一些不一致之處。
時間序列頻率轉換和重采樣的便捷方法。該對象必須具有 datetime-like 索引(
DatetimeIndex
,PeriodIndex
或TimedeltaIndex
),或者調用者必須將 datetime-like 係列/索引的標簽傳遞給on
/level
關鍵字參數。- rule:DateOffset、Timedelta 或 str
表示目標轉換的偏移量字符串或對象。
- axis:{0 或 ‘index’,1 或 ‘columns’},默認 0(Dask 中不支持)
哪個軸用於向上或down-sampling。對於
Series
,這將默認為 0,即沿行。必須是DatetimeIndex
,TimedeltaIndex
或PeriodIndex
。- closed:{‘right’, ‘left’},默認無
bin 區間的哪一側是閉合的。除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”和“W”之外,所有頻率偏移的默認值為 ‘left’,它們的默認值為 ‘right’。
- label:{‘right’, ‘left’},默認無
使用哪個 bin 邊標簽來標記存儲桶。除了“M”、“A”、“Q”、“BM”、“BA”、“BQ”和“W”之外,所有頻率偏移的默認值為 ‘left’,它們的默認值為 ‘right’。
- convention:{‘start’, ‘end’, ‘s’, ‘e’},默認 ‘start’(Dask 不支持)
僅適用於
PeriodIndex
,控製是使用rule
的開頭還是結尾。- kind:{‘timestamp’, ‘period’},可選,默認無(Dask 不支持)
傳遞 ‘timestamp’ 將結果索引轉換為
DateTimeIndex
或 ‘period’ 將其轉換為PeriodIndex
。默認情況下,輸入表示被保留。- loffset:timedelta,默認無(在 Dask 中不支持)
調整重新采樣的時間標簽。
- base:int,默認 0(Dask 中不支持)
對於均勻細分 1 天的頻率,聚合間隔的 “origin”。例如,對於‘5min’ 頻率,base 的範圍可以從 0 到 4。默認為 0。
- on:str,可選(在 Dask 中不支持)
對於 DataFrame,使用列而不是索引進行重采樣。列必須是datetime-like。
- level:str 或 int,可選(Dask 中不支持)
對於 MultiIndex,用於重采樣的級別(名稱或編號)。
level
必須是 datetime-like。- origin:時間戳或 str,默認 ‘start_day’(Dask 中不支持)
調整分組的時間戳。原始時區必須與索引的時區匹配。如果是字符串,則必須是以下之一:
- ‘epoch’:
origin
是 1970-01-01 - ‘start’:
origin
是時間序列的第一個值 - ‘start_day’:
origin
是時間序列午夜的第一天
- ‘end’:
origin
是時間序列的最後一個值 - ‘end_day’:
origin
是最後一天的天花板午夜
- ‘epoch’:
- offset:Timedelta 或 str,默認為 None(Dask 中不支持)
添加到原點的偏移時間增量。
- pandas.core.Resampler
Resampler
對象。
參數:
返回:
注意:
有關更多信息,請參閱user guide。
要了解有關偏移字符串的更多信息,請參閱this link。
例子:
首先創建一個包含 9 個一分鍾時間戳的係列。
>>> index = pd.date_range('1/1/2000', periods=9, freq='T') >>> series = pd.Series(range(9), index=index) >>> series 2000-01-01 00:00:00 0 2000-01-01 00:01:00 1 2000-01-01 00:02:00 2 2000-01-01 00:03:00 3 2000-01-01 00:04:00 4 2000-01-01 00:05:00 5 2000-01-01 00:06:00 6 2000-01-01 00:07:00 7 2000-01-01 00:08:00 8 Freq: T, dtype: int64
將係列下采樣到 3 分鍾的 bin 中,並將落入 bin 的時間戳的值相加。
>>> series.resample('3T').sum() 2000-01-01 00:00:00 3 2000-01-01 00:03:00 12 2000-01-01 00:06:00 21 Freq: 3T, dtype: int64
如上所述將係列下采樣到 3 分鍾的 bin 中,但使用右邊而不是左邊標記每個 bin。請注意,用作標簽的存儲桶中的值不包含在它標記的存儲桶中。例如,在原始係列中,桶
2000-01-01 00:03:00
包含值 3,但帶有標簽2000-01-01 00:03:00
的重新采樣桶中的總和值不包括 3(如果包含,則總和值為 6,而不是 3) .要包含此值,請關閉 bin 間隔的右側,如下麵的示例所示。>>> series.resample('3T', label='right').sum() 2000-01-01 00:03:00 3 2000-01-01 00:06:00 12 2000-01-01 00:09:00 21 Freq: 3T, dtype: int64
如上所述將序列下采樣到 3 分鍾的 bin 中,但關閉 bin 間隔的右側。
>>> series.resample('3T', label='right', closed='right').sum() 2000-01-01 00:00:00 0 2000-01-01 00:03:00 6 2000-01-01 00:06:00 15 2000-01-01 00:09:00 15 Freq: 3T, dtype: int64
將係列上采樣到 30 秒的 bin。
>>> series.resample('30S').asfreq()[0:5] # Select first 5 rows 2000-01-01 00:00:00 0.0 2000-01-01 00:00:30 NaN 2000-01-01 00:01:00 1.0 2000-01-01 00:01:30 NaN 2000-01-01 00:02:00 2.0 Freq: 30S, dtype: float64
將係列上采樣到 30 秒的 bin 中,並使用
pad
方法填充NaN
值。>>> series.resample('30S').pad()[0:5] 2000-01-01 00:00:00 0 2000-01-01 00:00:30 0 2000-01-01 00:01:00 1 2000-01-01 00:01:30 1 2000-01-01 00:02:00 2 Freq: 30S, dtype: int64
將係列上采樣到 30 秒的 bin 中,並使用
bfill
方法填充NaN
值。>>> series.resample('30S').bfill()[0:5] 2000-01-01 00:00:00 0 2000-01-01 00:00:30 1 2000-01-01 00:01:00 1 2000-01-01 00:01:30 2 2000-01-01 00:02:00 2 Freq: 30S, dtype: int64
通過
apply
傳遞自定義函數>>> def custom_resampler(arraylike): ... return np.sum(arraylike) + 5 ... >>> series.resample('3T').apply(custom_resampler) 2000-01-01 00:00:00 8 2000-01-01 00:03:00 17 2000-01-01 00:06:00 26 Freq: 3T, dtype: int64
對於具有 PeriodIndex 的係列,可以使用關鍵字
convention
來控製是使用rule
的開頭還是結尾。使用 ‘start’
convention
逐季重新采樣。值分配給該期間的第一季度。>>> s = pd.Series([1, 2], index=pd.period_range('2012-01-01', ... freq='A', ... periods=2)) >>> s 2012 1 2013 2 Freq: A-DEC, dtype: int64 >>> s.resample('Q', convention='start').asfreq() 2012Q1 1.0 2012Q2 NaN 2012Q3 NaN 2012Q4 NaN 2013Q1 2.0 2013Q2 NaN 2013Q3 NaN 2013Q4 NaN Freq: Q-DEC, dtype: float64
使用 ‘end’
convention
按月重新采樣季度。將值分配給該期間的最後一個月。>>> q = pd.Series([1, 2, 3, 4], index=pd.period_range('2018-01-01', ... freq='Q', ... periods=4)) >>> q 2018Q1 1 2018Q2 2 2018Q3 3 2018Q4 4 Freq: Q-DEC, dtype: int64 >>> q.resample('M', convention='end').asfreq() 2018-03 1.0 2018-04 NaN 2018-05 NaN 2018-06 2.0 2018-07 NaN 2018-08 NaN 2018-09 3.0 2018-10 NaN 2018-11 NaN 2018-12 4.0 Freq: M, dtype: float64
對於 DataFrame 對象,可以使用關鍵字
on
來指定列而不是重新采樣的索引。>>> d = {'price': [10, 11, 9, 13, 14, 18, 17, 19], ... 'volume': [50, 60, 40, 100, 50, 100, 40, 50]} >>> df = pd.DataFrame(d) >>> df['week_starting'] = pd.date_range('01/01/2018', ... periods=8, ... freq='W') >>> df price volume week_starting 0 10 50 2018-01-07 1 11 60 2018-01-14 2 9 40 2018-01-21 3 13 100 2018-01-28 4 14 50 2018-02-04 5 18 100 2018-02-11 6 17 40 2018-02-18 7 19 50 2018-02-25 >>> df.resample('M', on='week_starting').mean() price volume week_starting 2018-01-31 10.75 62.5 2018-02-28 17.00 60.0
對於具有 MultiIndex 的 DataFrame,關鍵字
level
可用於指定需要在哪個級別進行重采樣。>>> days = pd.date_range('1/1/2000', periods=4, freq='D') >>> d2 = {'price': [10, 11, 9, 13, 14, 18, 17, 19], ... 'volume': [50, 60, 40, 100, 50, 100, 40, 50]} >>> df2 = pd.DataFrame( ... d2, ... index=pd.MultiIndex.from_product( ... [days, ['morning', 'afternoon']] ... ) ... ) >>> df2 price volume 2000-01-01 morning 10 50 afternoon 11 60 2000-01-02 morning 9 40 afternoon 13 100 2000-01-03 morning 14 50 afternoon 18 100 2000-01-04 morning 17 40 afternoon 19 50 >>> df2.resample('D', level=0).sum() price volume 2000-01-01 21 110 2000-01-02 22 140 2000-01-03 32 150 2000-01-04 36 90
如果要根據固定時間戳調整 bin 的開始:
>>> start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00' >>> rng = pd.date_range(start, end, freq='7min') >>> ts = pd.Series(np.arange(len(rng)) * 3, index=rng) >>> ts 2000-10-01 23:30:00 0 2000-10-01 23:37:00 3 2000-10-01 23:44:00 6 2000-10-01 23:51:00 9 2000-10-01 23:58:00 12 2000-10-02 00:05:00 15 2000-10-02 00:12:00 18 2000-10-02 00:19:00 21 2000-10-02 00:26:00 24 Freq: 7T, dtype: int64
>>> ts.resample('17min').sum() 2000-10-01 23:14:00 0 2000-10-01 23:31:00 9 2000-10-01 23:48:00 21 2000-10-02 00:05:00 54 2000-10-02 00:22:00 24 Freq: 17T, dtype: int64
>>> ts.resample('17min', origin='epoch').sum() 2000-10-01 23:18:00 0 2000-10-01 23:35:00 18 2000-10-01 23:52:00 27 2000-10-02 00:09:00 39 2000-10-02 00:26:00 24 Freq: 17T, dtype: int64
>>> ts.resample('17min', origin='2000-01-01').sum() 2000-10-01 23:24:00 3 2000-10-01 23:41:00 15 2000-10-01 23:58:00 45 2000-10-02 00:15:00 45 Freq: 17T, dtype: int64
如果要使用
offset
Timedelta 調整 bin 的開始,則以下兩行是等效的:>>> ts.resample('17min', origin='start').sum() 2000-10-01 23:30:00 9 2000-10-01 23:47:00 21 2000-10-02 00:04:00 54 2000-10-02 00:21:00 24 Freq: 17T, dtype: int64
>>> ts.resample('17min', offset='23h30min').sum() 2000-10-01 23:30:00 9 2000-10-01 23:47:00 21 2000-10-02 00:04:00 54 2000-10-02 00:21:00 24 Freq: 17T, dtype: int64
如果您想將最大的 Timestamp 作為 bin 的結尾:
>>> ts.resample('17min', origin='end').sum() 2000-10-01 23:35:00 0 2000-10-01 23:52:00 18 2000-10-02 00:09:00 27 2000-10-02 00:26:00 63 Freq: 17T, dtype: int64
與
start_day
相比,您可以使用end_day
將最大 Timestamp 的天花板午夜作為 bin 的結尾,並刪除不包含數據的 bin:>>> ts.resample('17min', origin='end_day').sum() 2000-10-01 23:38:00 3 2000-10-01 23:55:00 15 2000-10-02 00:12:00 45 2000-10-02 00:29:00 45 Freq: 17T, dtype: int64
要替換已棄用的
base
參數的使用,您現在可以使用offset
,在此示例中等效於base=2
:>>> ts.resample('17min', offset='2min').sum() 2000-10-01 23:16:00 0 2000-10-01 23:33:00 9 2000-10-01 23:50:00 36 2000-10-02 00:07:00 39 2000-10-02 00:24:00 24 Freq: 17T, dtype: int64
要替換已棄用的
loffset
參數的使用:>>> from pandas.tseries.frequencies import to_offset >>> loffset = '19min' >>> ts_out = ts.resample('17min').sum() >>> ts_out.index = ts_out.index + to_offset(loffset) >>> ts_out 2000-10-01 23:33:00 0 2000-10-01 23:50:00 9 2000-10-02 00:07:00 21 2000-10-02 00:24:00 54 2000-10-02 00:41:00 24 Freq: 17T, dtype: int64
相關用法
- Python dask.dataframe.DataFrame.rename用法及代碼示例
- Python dask.dataframe.DataFrame.replace用法及代碼示例
- Python dask.dataframe.DataFrame.repartition用法及代碼示例
- Python dask.dataframe.DataFrame.round用法及代碼示例
- Python dask.dataframe.DataFrame.rmul用法及代碼示例
- Python dask.dataframe.DataFrame.rmod用法及代碼示例
- Python dask.dataframe.DataFrame.rfloordiv用法及代碼示例
- Python dask.dataframe.DataFrame.radd用法及代碼示例
- Python dask.dataframe.DataFrame.rpow用法及代碼示例
- Python dask.dataframe.DataFrame.random_split用法及代碼示例
- Python dask.dataframe.DataFrame.rtruediv用法及代碼示例
- Python dask.dataframe.DataFrame.rdiv用法及代碼示例
- Python dask.dataframe.DataFrame.rsub用法及代碼示例
- Python dask.dataframe.DataFrame.applymap用法及代碼示例
- Python dask.dataframe.DataFrame.sub用法及代碼示例
- Python dask.dataframe.DataFrame.mod用法及代碼示例
- Python dask.dataframe.DataFrame.cummin用法及代碼示例
- Python dask.dataframe.DataFrame.truediv用法及代碼示例
- Python dask.dataframe.DataFrame.ne用法及代碼示例
- Python dask.dataframe.DataFrame.partitions用法及代碼示例
注:本文由純淨天空篩選整理自dask.org大神的英文原創作品 dask.dataframe.DataFrame.resample。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。