R rsample initial_split 簡單的訓練/測試集分割

initial_split 將數據創建為訓練集和測試集的單個二進製分割。 initial_time_split 執行相同操作，但采用第一個 prop 樣本進行訓練，而不是隨機選擇。 group_initial_split 根據某些分組變量創建數據拆分，以便將 "group" 中的所有數據分配給同一拆分。 training 和testing 用於提取結果數據。

用法

initial_split(data, prop = 3/4, strata = NULL, breaks = 4, pool = 0.1, ...)

initial_time_split(data, prop = 3/4, lag = 0, ...)

training(x, ...)

# S3 method for default
training(x, ...)

# S3 method for rsplit
training(x, ...)

testing(x, ...)

# S3 method for default
testing(x, ...)

# S3 method for rsplit
testing(x, ...)

group_initial_split(data, group, prop = 3/4, ..., strata = NULL, pool = 0.1)

參數

data: 一個 DataFrame 。
prop: 為建模/分析而保留的數據比例。
strata: data 中的變量(單個字符或名稱)用於進行分層抽樣。如果不是 NULL ，則每次重新采樣都會在分層變量中創建。數字 strata 被分為四分位數。
breaks: 給出對數值分層變量進行分層所需的箱數的單個數字。
pool: 用於確定特定組是否太小的數據比例，是否應合並到另一個組中。我們不建議將此參數降低到默認值 0.1 以下，因為分層組太小存在危險。
...: 這些點用於將來的擴展，並且必須為空。
lag: 包含評估和分析集之間的滯後的值。如果在訓練和測試期間使用滯後預測變量，這非常有用。
x: 由 initial_split() 或 initial_time_split() 生成的 rsplit 對象。
group: data 中的變量(單個字符或名稱)，用於將具有相同值的觀察結果分組到折疊內的分析或評估集。

值

可與 training 和 testing 一起使用的 rsplit 對象

函數來提取每個分割中的數據。

細節

使用 strata 參數，在分層變量內進行隨機抽樣。這有助於確保重采樣與原始數據集具有相同的比例。對於分類變量，采樣是在每個類別內單獨進行的。對於數字分層變量，strata 被分為四分位數，然後用於分層。低於總數10%的地層合並在一起；有關更多詳細信息，請參閱make_strata()。

例子

set.seed(1353)
car_split <- initial_split(mtcars)
train_data <- training(car_split)
test_data <- testing(car_split)

data(drinks, package = "modeldata")
drinks_split <- initial_time_split(drinks)
train_data <- training(drinks_split)
test_data <- testing(drinks_split)
c(max(train_data$date), min(test_data$date)) # no lag
#> [1] "2011-03-01" "2011-04-01"

# With 12 period lag
drinks_lag_split <- initial_time_split(drinks, lag = 12)
train_data <- training(drinks_lag_split)
test_data <- testing(drinks_lag_split)
c(max(train_data$date), min(test_data$date)) # 12 period lag
#> [1] "2011-03-01" "2010-04-01"

set.seed(1353)
car_split <- group_initial_split(mtcars, cyl)
train_data <- training(car_split)
test_data <- testing(car_split)

源代碼：R/initial_split.R

相關用法

注：本文由純淨天空篩選整理自Hannah Frick等大神的英文原創作品 Simple Training/Test Set Splitting。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。