step_textfeature()
創建配方步驟的規範,該步驟將提取文本列的許多數字特征。
用法
step_textfeature(
recipe,
...,
role = "predictor",
trained = FALSE,
columns = NULL,
extract_functions = textfeatures::count_functions,
prefix = "textfeature",
keep_original_cols = FALSE,
skip = FALSE,
id = rand_id("textfeature")
)
參數
- recipe
-
一個recipe 對象。該步驟將添加到此配方的操作序列中。
- ...
-
一個或多個選擇器函數用於選擇受該步驟影響的變量。有關更多詳細信息,請參閱
recipes::selections()
。 - role
-
對於此步驟創建的模型項,應為它們分配什麽分析角色?默認情況下,該函數假定由原始變量創建的新列將用作模型中的預測變量。
- trained
-
指示預處理數量是否已估計的邏輯。
- columns
-
將由
terms
參數(最終)填充的變量名稱字符串。在recipes::prep.recipe()
訓練該步驟之前,這是NULL
。 - extract_functions
-
特征提取函數的命名列表。默認為 textfeatures 包中的
count_functions
。請參閱詳細信息以獲取更多信息。 - prefix
-
生成的列名稱的前綴,默認為"textfeature"。
- keep_original_cols
-
將原始變量保留在輸出中的邏輯。默認為
FALSE
。 - skip
-
一個合乎邏輯的。當
recipes::bake.recipe()
烘焙食譜時是否應該跳過此步驟?雖然所有操作都是在recipes::prep.recipe()
運行時烘焙的,但某些操作可能無法對新數據進行(例如處理結果變量)。使用skip = FALSE
時應小心。 - id
-
該步驟特有的字符串,用於標識它。
細節
此步驟將采用字符列並返回數字列的數量,該數字列的數量等於傳遞給 extract_functions
參數的列表中的函數數量。默認值是 textfeatures 包中的函數列表。
傳遞給 extract_functions
的所有函數都必須以字符向量作為輸入並返回相同長度的數值向量,否則將引發錯誤。
整理
當您tidy()
此步驟時,會出現一個包含列terms
(所選選擇器或變量)和functions
(特征函數名稱)的小標題。
也可以看看
來自字符的數字變量的其他步驟:step_dummy_hash()
、step_sequence_onehot()
例子
library(recipes)
library(modeldata)
data(tate_text)
tate_rec <- recipe(~., data = tate_text) %>%
step_textfeature(medium)
tate_obj <- tate_rec %>%
prep()
bake(tate_obj, new_data = NULL) %>%
slice(1:2)
#> # A tibble: 2 × 31
#> id artist title year textfeature_medium_n…¹ textfeature_medium_n…²
#> <dbl> <fct> <fct> <dbl> <int> <int>
#> 1 21926 Absalon Prop… 1990 8 8
#> 2 20472 Auerbac… Mich… 1990 3 3
#> # ℹ abbreviated names: ¹textfeature_medium_n_words,
#> # ²textfeature_medium_n_uq_words
#> # ℹ 25 more variables: textfeature_medium_n_charS <int>,
#> # textfeature_medium_n_uq_charS <int>,
#> # textfeature_medium_n_digits <int>,
#> # textfeature_medium_n_hashtags <int>,
#> # textfeature_medium_n_uq_hashtags <int>, …
bake(tate_obj, new_data = NULL) %>%
pull(textfeature_medium_n_words)
#> [1] 8 3 3 3 4 4 4 3 6 3 3 3 3 3 3 3 6 7 9 4 4 3
#> [23] 3 3 3 3 3 3 3 5 8 4 4 3 3 3 3 3 3 1 5 4 1 10
#> [45] 3 3 3 3 3 3 3 3 3 5 9 5 6 6 4 4 4 4 6 3 3 3
#> [67] 3 4 3 6 3 3 3 5 10 3 3 4 15 3 8 6 10 12 5 3 4 3
#> [89] 3 3 3 3 3 3 3 4 3 3 3 3 5 3 5 3 3 3 4 5 6 3
#> [111] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [133] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [155] 3 3 3 3 3 6 3 6 6 1 5 8 1 4 6 6 6 4 7 5 3 3
#> [177] 3 3 7 3 3 3 3 6 3 3 6 4 8 11 4 11 3 3 4 3 6 6
#> [199] 3 3 6 3 6 8 7 5 6 3 6 5 5 3 5 5 3 3 3 3 3 3
#> [221] 7 7 7 7 7 7 7 7 5 5 3 3 3 3 3 3 3 3 3 3 19 6
#> [243] 3 3 3 6 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 3
#> [265] 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 5 5
#> [287] 5 5 5 3 6 7 7 6 6 4 4 4 4 4 4 4 4 6 6 10 3 3
#> [309] 4 4 7 3 3 6 1 14 14 10 9 6 9 4 9 4 13 3 6 6 4 4
#> [331] 4 4 5 11 4 4 8 9 11 5 3 3 3 3 3 3 3 3 3 3 3 3
#> [353] 4 5 3 4 12 10 3 3 3 3 3 3 3 3 1 1 3 3 3 8 6 5
#> [375] 8 6 5 5 5 5 7 3 3 3 3 3 2 7 7 7 4 4 3 5 5 5
#> [397] 5 5 5 6 6 6 6 6 5 6 7 9 6 2 8 3 5 4 2 17 18 4
#> [419] 3 3 3 10 3 4 3 3 10 7 5 7 3 5 7 5 5 7 5 5 5 7
#> [441] 3 5 5 7 5 8 5 5 5 5 6 8 8 9 6 6 6 6 4 3 6 6
#> [463] 4 4 1 3 3 3 3 3 3 3 3 3 3 3 1 9 3 3 4 4 6 6
#> [485] 8 9 3 6 3 3 3 3 3 3 3 3 3 3 3 3 4 3 8 15 13 18
#> [507] 12 12 3 6 6 6 11 10 3 13 4 4 3 3 10 9 13 4 7 6 4 3
#> [529] 4 4 4 3 14 8 3 3 3 3 3 8 3 3 3 3 3 3 3 3 3 3
#> [551] 4 4 3 3 3 3 3 3 3 3 3 3 11 6 3 6 6 1 4 7 7 3
#> [573] 5 3 7 4 9 3 3 3 3 3 3 3 3 4 4 3 3 3 3 3 3 3
#> [595] 6 6 6 6 5 8 3 2 10 3 5 4 3 3 3 6 17 4 1 3 3 3
#> [617] 3 3 3 3 3 3 4 6 8 9 6 6 6 5 3 4 3 5 6 6 6 6
#> [639] 6 6 5 2 7 6 7 7 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [661] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 7 8 7 6
#> [683] 6 4 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [705] 3 3 4 7 5 5 5 7 10 11 9 4 4 7 3 3 3 3 3 3 7 6
#> [727] 16 10 15 3 3 3 3 6 3 11 2 3 6 8 10 4 7 11 12 4 4 4
#> [749] 3 3 3 3 4 6 8 6 1 5 7 7 7 8 11 11 11 5 5 5 3 3
#> [771] 3 3 3 4 3 3 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [793] 3 4 9 8 8 8 8 8 8 8 8 8 8 8 8 8 6 13 5 4 3 3
#> [815] 3 3 3 3 1 9 4 3 6 11 10 11 4 3 6 3 5 8 8 7 6 6
#> [837] 6 6 6 6 6 7 7 7 9 6 9 8 3 3 3 6 3 3 3 2 8 4
#> [859] 4 5 3 3 3 3 3 3 3 3 3 3 8 7 3 3 3 3 3 5 5 3
#> [881] 3 3 5 5 5 5 3 3 3 11 3 3 3 3 3 4 6 3 7 1 1 7
#> [903] 4 5 4 4 4 4 3 3 11 3 4 10 3 3 3 3 3 5 8 3 6 10
#> [925] 7 1 4 3 3 5 4 10 4 3 8 3 7 7 4 4 12 3 7 5 6 3
#> [947] 3 3 4 6 7 3 3 3 3 3 3 3 3 3 3 3 3 6 5 1 5 3
#> [969] 3 3 4 6 4 6 5 5 7 5 3 3 3 3 3 3 3 3 3 3 3 3
#> [991] 3 3 3 3 6 2 3 6 4 6 6 5 6 6 2 5 5 5 5 5 4 9
#> [1013] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1035] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 3 3 3 3 3 3 3
#> [1057] 3 8 5 5 9 9 11 11 11 5 5 5 5 5 5 5 5 5 5 5 5 5
#> [1079] 5 5 5 5 5 5 5 5 5 9 5 5 5 11 5 5 5 5 18 6 6 4
#> [1101] 4 5 5 1 4 3 3 3 3 3 3 3 3 3 3 3 5 3 3 5 3 3
#> [1123] 5 3 3 5 3 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1145] 3 3 3 3 3 3 3 3 3 3 3 3 5 3 3 3 3 3 3 3 3 3
#> [1167] 3 3 3 3 3 3 4 1 14 7 2 8 5 11 3 3 3 11 3 7 3 4
#> [1189] 3 6 3 5 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [1211] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [1233] 4 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3 4 6 6 4 7
#> [1255] 7 7 7 6 3 4 9 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1277] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1299] 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 10 4 3
#> [1321] 3 3 5 5 7 4 4 3 3 3 3 3 3 3 5 5 9 6 5 5 5 5
#> [1343] 5 5 5 5 7 6 4 4 7 4 4 7 5 9 9 9 6 6 5 5 6 5
#> [1365] 6 6 6 5 6 4 6 6 6 6 4 5 5 8 7 4 5 15 4 3 3 3
#> [1387] 3 3 3 3 3 5 3 5 5 5 5 4 4 6 15 4 6 5 5 5 5 5
#> [1409] 5 5 5 5 5 3 3 3 3 3 3 8 4 5 5 3 3 3 5 4 5 4
#> [1431] 8 1 4 4 4 12 8 3 3 3 3 3 3 3 6 5 3 5 3 5 5 3
#> [1453] 5 5 5 5 5 5 5 5 5 5 10 10 4 4 4 4 3 3 3 3 3 3
#> [1475] 3 3 3 3 3 3 8 8 5 5 5 5 5 5 13 3 3 3 3 3 3 3
#> [1497] 3 3 3 2 2 3 2 2 2 2 10 5 3 3 3 3 3 3 3 3 3 3
#> [1519] 3 4 4 4 4 4 3 1 7 4 5 3 5 3 5 5 3 5 5 3 5 5
#> [1541] 7 7 4 8 5 5 6 6 6 13 3 3 3 3 3 3 3 3 6 5 4 8
#> [1563] 9 8 8 9 7 8 10 8 6 8 6 6 6 7 6 6 6 6 6 5 5 5
#> [1585] 5 5 5 5 5 7 7 7 7 7 3 3 3 3 3 3 3 3 3 3 3 3
#> [1607] 14 13 10 4 3 8 3 5 4 4 4 18 7 3 3 3 3 3 3 3 3 6
#> [1629] 3 3 3 4 7 3 3 3 6 3 3 7 3 3 3 3 3 3 3 3 3 3
#> [1651] 3 3 5 6 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1673] 3 7 4 3 3 3 6 1 3 3 3 2 2 3 3 3 3 5 3 7 5 7
#> [1695] 7 5 6 5 6 5 7 6 5 3 4 9 4 4 3 4 3 4 6 6 3 6
#> [1717] 6 6 3 3 3 3 3 3 4 4 6 3 6 12 3 3 3 3 3 3 6 4
#> [1739] 6 6 6 4 4 12 9 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3
#> [1761] 3 5 4 3 3 3 3 3 4 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1783] 3 3 3 3 3 3 3 3 3 3 3 3 7 3 1 1 1 3 3 3 1 3
#> [1805] 3 3 3 3 5 3 3 4 16 6 6 6 6 6 5 6 6 6 6 6 6 6
#> [1827] 6 6 6 6 6 10 3 4 4 6 6 1 3 3 6 3 4 4 4 4 4 4
#> [1849] 4 4 6 3 10 8 6 3 13 7 6 6 6 6 6 6 6 6 6 6 6 6
#> [1871] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 4 6 6 4 4
#> [1893] 3 6 6 3 3 4 4 3 3 3 3 3 3 3 3 3 7 3 3 3 3 3
#> [1915] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 5 6 5 5 3 5 5 5
#> [1937] 5 5 3 5 5 6 6 6 6 6 6 6 6 6 9 3 3 3 3 3 6 3
#> [1959] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1981] 3 3 3 4 4 4 4 1 4 6 6 3 9 9 9 3 3 4 5 6 6 6
#> [2003] 6 6 6 6 6 6 6 4 2 2 5 3 3 8 8 8 8 8 8 8 8 8
#> [2025] 8 8 8 3 3 3 3 3 3 3 3 3 3 3 3 8 9 9 9 3 7 2
#> [2047] 2 4 3 4 4 4 4 4 7 7 4 3 3 3 3 3 3 3 3 3 3 3
#> [2069] 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4
#> [2091] 4 4 2 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2113] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2135] 3 3 3 3 3 3 3 3 3 3 3 6 6 4 4 4 4 2 3 3 3 3
#> [2157] 3 3 3 3 4 4 7 3 3 3 4 12 10 3 4 7 6 17 7 6 6 6
#> [2179] 6 3 3 3 3 3 3 7 7 7 7 7 7 6 6 6 6 6 7 10 12 3
#> [2201] 5 6 6 4 6 5 4 4 3 3 8 5 2 11 10 9 9 11 8 7 7 7
#> [2223] 9 8 3 3 17 6 6 1 4 8 5 5 5 5 3 3 3 3 3 5 5 3
#> [2245] 5 5 3 3 3 3 3 3 3 3 3 3 3 5 5 5 5 5 5 5 5 5
#> [2267] 5 5 5 5 5 5 5 5 7 7 7 7 7 7 7 13 3 1 16 10 6 7
#> [2289] 3 5 6 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2311] 3 3 7 3 4 8 3 3 6 3 4 7 8 2 10 6 6 1 1 10 9 9
#> [2333] 9 9 9 4 6 6 6 6 6 6 6 6 6 6 5 3 14 3 3 5 9 6
#> [2355] 6 6 4 12 7 7 11 11 8 6 3 3 3 3 3 3 3 3 3 3 3 3
#> [2377] 3 6 7 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 6 5 4 7
#> [2399] 3 4 4 6 6 6 7 6 7 7 7 7 12 19 3 5 5 5 5 5 5 5
#> [2421] 5 5 3 5 5 3 3 5 5 3 6 6 6 6 6 6 6 6 6 6 6 6
#> [2443] 6 6 6 6 6 6 6 6 2 7 4 5 3 3 3 3 3 3 3 3 3 3
#> [2465] 3 8 6 6 3 7 6 6 10 3 6 6 16 6 6 6 6 6 6 11 3 4
#> [2487] 4 3 3 3 3 3 3 3 8 6 3 3 3 3 6 4 6 6 6 6 6 6
#> [2509] 6 6 6 6 6 6 6 6 3 3 5 7 5 3 3 3 3 3 3 3 3 3
#> [2531] 3 3 3 3 3 3 3 3 3 3 3 9 9 3 9 8 6 3 3 3 3 1
#> [2553] 4 3 4 7 8 6 7 5 6 3 6 6 5 6 6 4 11 3 4 3 3 3
#> [2575] 6 12 4 4 3 3 3 3 3 3 3 6 4 3 3 3 3 3 3 3 3 3
#> [2597] 3 3 3 3 3 3 3 3 3 3 3 10 8 6 4 4 2 3 6 6 17 7
#> [2619] 5 5 3 3 3 3 3 3 3 3 3 3 3 3 3 5 4 6 6 5 6 6
#> [2641] 6 5 3 3 8 10 5 8 6 3 6 4 4 9 6 17 6 5 5 5 5 5
#> [2663] 5 5 5 5 5 5 5 5 4 3 3 11 3 3 3 3 3 3 3 3 3 3
#> [2685] 3 3 3 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3
#> [2707] 3 3 5 4 4 16 6 4 6 4 9 11 6 3 3 3 8 8 3 8 8 8
#> [2729] 8 8 6 4 1 6 6 6 6 6 6 6 6 6 6 6 3 9 3 3 3 4
#> [2751] 3 6 6 6 6 10 10 9 3 6 6 4 3 7 4 7 5 5 5 7 5 9
#> [2773] 6 13 4 6 6 6 3 3 6 4 6 5 7 18 3 3 3 3 3 3 3 3
#> [2795] 3 3 4 4 17 5 3 3 3 3 3 3 5 3 3 7 7 7 7 7 6 6
#> [2817] 6 6 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2839] 3 6 16 5 19 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [2861] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [2883] 4 4 4 4 10 5 12 12 12 5 12 6 5 6 6 6 5 6 5 7 4 12
#> [2905] 8 10 3 11 2 6 6 6 6 4 4 11 5 6 1 5 6 6 2 10 4 4
#> [2927] 6 4 6 5 5 5 3 3 3 3 3 3 3 3 3 4 6 3 3 4 4 4
#> [2949] 4 1 5 3 3 6 9 6 6 6 3 3 3 3 3 3 3 3 3 3 3 3
#> [2971] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2993] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3015] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3037] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3059] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3081] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3103] 3 3 3 6 12 7 1 13 6 6 6 6 6 4 4 4 4 6 6 5 14 7
#> [3125] 5 4 3 3 3 3 3 4 4 4 4 4 4 1 16 17 6 3 3 5 4 4
#> [3147] 3 3 5 4 3 3 11 5 5 7 6 6 5 5 5 9 5 12 3 6 5 5
#> [3169] 5 11 1 1 5 6 6 3 3 9 10 3 4 3 3 3 3 3 3 3 3 3
#> [3191] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 7 9 3 3 3 3 3 3
#> [3213] 3 3 3 3 3 3 6 7 3 3 3 3 3 3 3 3 3 3 3 3 5 3
#> [3235] 3 3 3 6 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 5 10 7
#> [3257] 3 3 3 3 3 3 3 3 7 3 4 4 6 6 6 6 6 6 6 7 2 4
#> [3279] 8 3 3 3 3 3 6 1 5 6 6 6 6 6 6 3 7 7 3 3 3 3
#> [3301] 3 3 7 6 8 5 4 4 3 3 3 5 9 9 4 3 9 6 6 4 3 1
#> [3323] 5 5 5 5 5 5 7 1 3 9 3 9 15 15 12 8 5 19 4 4 7 7
#> [3345] 6 17 2 4 5 9 4 5 6 6 6 6 6 6 6 6 6 6 7 7 4 4
#> [3367] 4 6 6 6 6 6 6 6 6 6 3 6 3 5 3 3 16 5 3 8 3 3
#> [3389] 3 3 3 3 3 9 6 7 19 4 6 7 7 10 9 8 7 7 8 5 4 10
#> [3411] 4 3 3 5 4 5 5 6 6 14 7 8 8 8 8 8 8 8 8 8 4 4
#> [3433] 1 3 15 7 4 3 4 4 4 7 4 4 11 6 9 6 4 6 4 3 3 3
#> [3455] 3 3 4 3 4 6 15 7 3 3 3 9 3 3 3 3 3 4 5 5 5 1
#> [3477] 6 3 4 6 6 4 4 6 6 6 6 5 3 16 12 2 11 5 5 3 10 10
#> [3499] 2 3 3 3 5 5 5 5 17 5 8 9 15 3 3 3 6 3 3 3 3 3
#> [3521] 3 8 9 7 19 13 4 4 4 16 8 8 15 9 3 7 7 7 7 1 11 11
#> [3543] 7 3 3 3 4 4 4 4 15 15 15 15 8 8 13 1 4 8 8 7 7 6
#> [3565] 6 6 6 6 6 6 4 4 4 2 3 4 7 5 6 6 8 9 7 2 2 2
#> [3587] 4 3 4 6 10 6 6 6 6 5 10 7 13 11 11 3 5 8 4 15 8 19
#> [3609] 5 8 5 4 4 4 5 5 5 5 7 6 4 6 6 6 6 6 6 6 10 6
#> [3631] 5 5 6 3 3 6 11 4 5 4 4 4 4 5 5 7 4 4 4 4 4 4
#> [3653] 4 4 6 3 2 5 18 18 17 6 8 8 3 3 4 3 3 4 6 6 14 8
#> [3675] 5 7 6 7 12 10 4 6 6 6 8 10 7 4 4 4 4 4 4 8 8 5
#> [3697] 6 9 9 9 5 8 8 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2
#> [3719] 18 5 8 11 4 3 3 11 4 9 9 4 6 9 4 7 4 8 5 6 6 6
#> [3741] 6 6 6 6 6 3 3 7 4 4 4 4 4 1 7 3 3 3 3 3 3 9
#> [3763] 5 4 4 4 4 4 4 4 3 11 8 8 6 10 4 13 3 3 12 4 5 3
#> [3785] 13 3 3 5 7 12 4 4 15 3 4 4 4 4 4 8 8 4 5 5 6 3
#> [3807] 6 6 6 6 5 5 4 6 3 4 6 6 7 4 8 7 7 7 7 7 7 7
#> [3829] 7 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 5 6 6 6 6 6
#> [3851] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3873] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3895] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3917] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3939] 6 6 6 6 6 6 6 6 6 4 4 4 3 3 3 4 1 3 3 3 6 6
#> [3961] 4 10 9 3 4 3 9 4 8 3 3 3 3 3 3 3 5 2 7 8 3 6
#> [3983] 6 3 3 8 6 7 4 7 7 7 15 7 5 7 3 5 3 6 7 4 4 4
#> [4005] 4 4 4 4 4 8 7 7 7 8 4 4 3 5 6 4 8 4 4 3 8 3
#> [4027] 4 7 3 3 3 5 4 5 3 10 5 7 6 3 3 4 4 4 4 4 5 4
#> [4049] 4 4 6 10 3 6 16 3 15 6 7 4 6 18 4 10 6 3 8 11 3 9
#> [4071] 11 8 16 4 5 6 6 6 5 4 4 6 5 1 6 10 12 9 6 6 3 7
#> [4093] 6 5 7 7 3 3 4 6 3 3 3 3 3 3 3 5 1 5 12 10 3 4
#> [4115] 8 11 8 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [4137] 4 4 4 4 4 4 4 4 8 7 1 7 4 3 3 3 3 5 7 4 6 6
#> [4159] 6 6 6 6 6 6 6 6 4 3 3 5 3 3 3 16 10 3 17 5 5 5
#> [4181] 4 4 4 4 4 10 4 9 9 9 4 5 4 4 8 9 4 1 4 5 5 5
#> [4203] 6 5 5 4 8 10 12 4 9 15 3 4 4 4 4 3 1 3 7 7 7 7
#> [4225] 7 3 3 3 4 4 6 3 3 3 4 3 3 3 9 14 3 1 7 6 6 6
#> [4247] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [4269] 6 6 6 6 7 6 6 6 6 6 6 6 6 6 6 4
tidy(tate_rec, number = 1)
#> # A tibble: 1 × 3
#> terms functions id
#> <chr> <chr> <chr>
#> 1 medium NA textfeature_ahRZP
tidy(tate_obj, number = 1)
#> # A tibble: 27 × 3
#> terms functions id
#> <chr> <chr> <chr>
#> 1 medium n_words textfeature_ahRZP
#> 2 medium n_uq_words textfeature_ahRZP
#> 3 medium n_charS textfeature_ahRZP
#> 4 medium n_uq_charS textfeature_ahRZP
#> 5 medium n_digits textfeature_ahRZP
#> 6 medium n_hashtags textfeature_ahRZP
#> 7 medium n_uq_hashtags textfeature_ahRZP
#> 8 medium n_mentions textfeature_ahRZP
#> 9 medium n_uq_mentions textfeature_ahRZP
#> 10 medium n_commas textfeature_ahRZP
#> # ℹ 17 more rows
# Using custom extraction functions
nchar_round_10 <- function(x) round(nchar(x) / 10) * 10
recipe(~., data = tate_text) %>%
step_textfeature(medium,
extract_functions = list(nchar10 = nchar_round_10)
) %>%
prep() %>%
bake(new_data = NULL)
#> # A tibble: 4,284 × 5
#> id artist title year textfeature_medium_n…¹
#> <dbl> <fct> <fct> <dbl> <dbl>
#> 1 21926 Absalon Proposals for a… 1990 60
#> 2 20472 Auerbach, Frank Michael 1990 20
#> 3 20474 Auerbach, Frank Geoffrey 1990 20
#> 4 20473 Auerbach, Frank Jake 1990 20
#> 5 20513 Auerbach, Frank To the Studios 1990 20
#> 6 21389 Ayres, OBE Gillian Phaëthon 1990 20
#> 7 121187 Barlow, Phyllida Untitled 1990 20
#> 8 19455 Baselitz, Georg Green VIII 1990 20
#> 9 20938 Beattie, Basil Present Bound 1990 30
#> 10 105941 Beuys, Joseph Joseph Beuys: A… 1990 10
#> # ℹ 4,274 more rows
#> # ℹ abbreviated name: ¹textfeature_medium_nchar10
相關用法
- R textrecipes step_text_normalization 字符變量的標準化
- R textrecipes step_texthash 代幣的特征哈希
- R textrecipes step_tokenize_wordpiece 字符變量的Wordpiece標記化
- R textrecipes step_tokenfilter 根據詞頻過濾標記
- R textrecipes step_tokenize_sentencepiece 字符變量的句子標記化
- R textrecipes step_tokenmerge 將多個令牌變量合並為一個
- R textrecipes step_tf 代幣的使用頻率
- R textrecipes step_tokenize 字符變量的標記化
- R textrecipes step_tfidf 詞頻-令牌的逆文檔頻率
- R textrecipes step_tokenize_bpe 字符變量的 BPE 標記化
- R textrecipes step_lemma 標記變量的詞形還原
- R textrecipes step_clean_names 幹淨的變量名稱
- R textrecipes step_word_embeddings 令牌的預訓練詞嵌入
- R textrecipes step_stem 令牌變量的詞幹
- R textrecipes step_ngram 從標記變量生成 n-gram
- R textrecipes step_stopwords 過濾標記變量的停用詞
- R textrecipes step_pos_filter 令牌變量的語音過濾部分
- R textrecipes step_untokenize 令牌變量的取消令牌化
- R textrecipes step_lda 計算代幣的LDA維度估計
- R textrecipes step_clean_levels 清晰的分類級別
- R textrecipes step_sequence_onehot 令牌的位置 One-Hot 編碼
- R textrecipes step_dummy_hash 通過特征哈希的指示變量
- R textrecipes show_tokens 顯示配方的令牌輸出
- R textrecipes tokenlist 創建令牌對象
- R update_PACKAGES 更新現有的 PACKAGES 文件
注:本文由純淨天空篩選整理自等大神的英文原創作品 Calculate Set of Text Features。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。