當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


R rsample initial_split 簡單的訓練/測試集分割

initial_split 將數據創建為訓練集和測試集的單個二進製分割。 initial_time_split 執行相同操作,但采用第一個 prop 樣本進行訓練,而不是隨機選擇。 group_initial_split 根據某些分組變量創建數據拆分,以便將 "group" 中的所有數據分配給同一拆分。 trainingtesting 用於提取結果數據。

用法

initial_split(data, prop = 3/4, strata = NULL, breaks = 4, pool = 0.1, ...)

initial_time_split(data, prop = 3/4, lag = 0, ...)

training(x, ...)

# S3 method for default
training(x, ...)

# S3 method for rsplit
training(x, ...)

testing(x, ...)

# S3 method for default
testing(x, ...)

# S3 method for rsplit
testing(x, ...)

group_initial_split(data, group, prop = 3/4, ..., strata = NULL, pool = 0.1)

參數

data

一個 DataFrame 。

prop

為建模/分析而保留的數據比例。

strata

data 中的變量(單個字符或名稱)用於進行分層抽樣。如果不是 NULL ,則每次重新采樣都會在分層變量中創建。數字 strata 被分為四分位數。

breaks

給出對數值分層變量進行分層所需的箱數的單個數字。

pool

用於確定特定組是否太小的數據比例,是否應合並到另一個組中。我們不建議將此參數降低到默認值 0.1 以下,因為分層組太小存在危險。

...

這些點用於將來的擴展,並且必須為空。

lag

包含評估和分析集之間的滯後的值。如果在訓練和測試期間使用滯後預測變量,這非常有用。

x

initial_split()initial_time_split() 生成的 rsplit 對象。

group

data 中的變量(單個字符或名稱),用於將具有相同值的觀察結果分組到折疊內的分析或評估集。

可與 trainingtesting 一起使用的 rsplit 對象

函數來提取每個分割中的數據。

細節

使用 strata 參數,在分層變量內進行隨機抽樣。這有助於確保重采樣與原始數據集具有相同的比例。對於分類變量,采樣是在每個類別內單獨進行的。對於數字分層變量,strata 被分為四分位數,然後用於分層。低於總數10%的地層合並在一起;有關更多詳細信息,請參閱make_strata()

例子

set.seed(1353)
car_split <- initial_split(mtcars)
train_data <- training(car_split)
test_data <- testing(car_split)

data(drinks, package = "modeldata")
drinks_split <- initial_time_split(drinks)
train_data <- training(drinks_split)
test_data <- testing(drinks_split)
c(max(train_data$date), min(test_data$date)) # no lag
#> [1] "2011-03-01" "2011-04-01"

# With 12 period lag
drinks_lag_split <- initial_time_split(drinks, lag = 12)
train_data <- training(drinks_lag_split)
test_data <- testing(drinks_lag_split)
c(max(train_data$date), min(test_data$date)) # 12 period lag
#> [1] "2011-03-01" "2010-04-01"

set.seed(1353)
car_split <- group_initial_split(mtcars, cyl)
train_data <- training(car_split)
test_data <- testing(car_split)
源代碼:R/initial_split.R

相關用法


注:本文由純淨天空篩選整理自Hannah Frick等大神的英文原創作品 Simple Training/Test Set Splitting。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。