step_textfeature()
创建配方步骤的规范,该步骤将提取文本列的许多数字特征。
用法
step_textfeature(
recipe,
...,
role = "predictor",
trained = FALSE,
columns = NULL,
extract_functions = textfeatures::count_functions,
prefix = "textfeature",
keep_original_cols = FALSE,
skip = FALSE,
id = rand_id("textfeature")
)
参数
- recipe
-
一个recipe 对象。该步骤将添加到此配方的操作序列中。
- ...
-
一个或多个选择器函数用于选择受该步骤影响的变量。有关更多详细信息,请参阅
recipes::selections()
。 - role
-
对于此步骤创建的模型项,应为它们分配什么分析角色?默认情况下,该函数假定由原始变量创建的新列将用作模型中的预测变量。
- trained
-
指示预处理数量是否已估计的逻辑。
- columns
-
将由
terms
参数(最终)填充的变量名称字符串。在recipes::prep.recipe()
训练该步骤之前,这是NULL
。 - extract_functions
-
特征提取函数的命名列表。默认为 textfeatures 包中的
count_functions
。请参阅详细信息以获取更多信息。 - prefix
-
生成的列名称的前缀,默认为"textfeature"。
- keep_original_cols
-
将原始变量保留在输出中的逻辑。默认为
FALSE
。 - skip
-
一个合乎逻辑的。当
recipes::bake.recipe()
烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在recipes::prep.recipe()
运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用skip = FALSE
时应小心。 - id
-
该步骤特有的字符串,用于标识它。
细节
此步骤将采用字符列并返回数字列的数量,该数字列的数量等于传递给 extract_functions
参数的列表中的函数数量。默认值是 textfeatures 包中的函数列表。
传递给 extract_functions
的所有函数都必须以字符向量作为输入并返回相同长度的数值向量,否则将引发错误。
整理
当您tidy()
此步骤时,会出现一个包含列terms
(所选选择器或变量)和functions
(特征函数名称)的小标题。
也可以看看
来自字符的数字变量的其他步骤:step_dummy_hash()
、step_sequence_onehot()
例子
library(recipes)
library(modeldata)
data(tate_text)
tate_rec <- recipe(~., data = tate_text) %>%
step_textfeature(medium)
tate_obj <- tate_rec %>%
prep()
bake(tate_obj, new_data = NULL) %>%
slice(1:2)
#> # A tibble: 2 × 31
#> id artist title year textfeature_medium_n…¹ textfeature_medium_n…²
#> <dbl> <fct> <fct> <dbl> <int> <int>
#> 1 21926 Absalon Prop… 1990 8 8
#> 2 20472 Auerbac… Mich… 1990 3 3
#> # ℹ abbreviated names: ¹textfeature_medium_n_words,
#> # ²textfeature_medium_n_uq_words
#> # ℹ 25 more variables: textfeature_medium_n_charS <int>,
#> # textfeature_medium_n_uq_charS <int>,
#> # textfeature_medium_n_digits <int>,
#> # textfeature_medium_n_hashtags <int>,
#> # textfeature_medium_n_uq_hashtags <int>, …
bake(tate_obj, new_data = NULL) %>%
pull(textfeature_medium_n_words)
#> [1] 8 3 3 3 4 4 4 3 6 3 3 3 3 3 3 3 6 7 9 4 4 3
#> [23] 3 3 3 3 3 3 3 5 8 4 4 3 3 3 3 3 3 1 5 4 1 10
#> [45] 3 3 3 3 3 3 3 3 3 5 9 5 6 6 4 4 4 4 6 3 3 3
#> [67] 3 4 3 6 3 3 3 5 10 3 3 4 15 3 8 6 10 12 5 3 4 3
#> [89] 3 3 3 3 3 3 3 4 3 3 3 3 5 3 5 3 3 3 4 5 6 3
#> [111] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [133] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [155] 3 3 3 3 3 6 3 6 6 1 5 8 1 4 6 6 6 4 7 5 3 3
#> [177] 3 3 7 3 3 3 3 6 3 3 6 4 8 11 4 11 3 3 4 3 6 6
#> [199] 3 3 6 3 6 8 7 5 6 3 6 5 5 3 5 5 3 3 3 3 3 3
#> [221] 7 7 7 7 7 7 7 7 5 5 3 3 3 3 3 3 3 3 3 3 19 6
#> [243] 3 3 3 6 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 3
#> [265] 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 5 5
#> [287] 5 5 5 3 6 7 7 6 6 4 4 4 4 4 4 4 4 6 6 10 3 3
#> [309] 4 4 7 3 3 6 1 14 14 10 9 6 9 4 9 4 13 3 6 6 4 4
#> [331] 4 4 5 11 4 4 8 9 11 5 3 3 3 3 3 3 3 3 3 3 3 3
#> [353] 4 5 3 4 12 10 3 3 3 3 3 3 3 3 1 1 3 3 3 8 6 5
#> [375] 8 6 5 5 5 5 7 3 3 3 3 3 2 7 7 7 4 4 3 5 5 5
#> [397] 5 5 5 6 6 6 6 6 5 6 7 9 6 2 8 3 5 4 2 17 18 4
#> [419] 3 3 3 10 3 4 3 3 10 7 5 7 3 5 7 5 5 7 5 5 5 7
#> [441] 3 5 5 7 5 8 5 5 5 5 6 8 8 9 6 6 6 6 4 3 6 6
#> [463] 4 4 1 3 3 3 3 3 3 3 3 3 3 3 1 9 3 3 4 4 6 6
#> [485] 8 9 3 6 3 3 3 3 3 3 3 3 3 3 3 3 4 3 8 15 13 18
#> [507] 12 12 3 6 6 6 11 10 3 13 4 4 3 3 10 9 13 4 7 6 4 3
#> [529] 4 4 4 3 14 8 3 3 3 3 3 8 3 3 3 3 3 3 3 3 3 3
#> [551] 4 4 3 3 3 3 3 3 3 3 3 3 11 6 3 6 6 1 4 7 7 3
#> [573] 5 3 7 4 9 3 3 3 3 3 3 3 3 4 4 3 3 3 3 3 3 3
#> [595] 6 6 6 6 5 8 3 2 10 3 5 4 3 3 3 6 17 4 1 3 3 3
#> [617] 3 3 3 3 3 3 4 6 8 9 6 6 6 5 3 4 3 5 6 6 6 6
#> [639] 6 6 5 2 7 6 7 7 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [661] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 7 8 7 6
#> [683] 6 4 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [705] 3 3 4 7 5 5 5 7 10 11 9 4 4 7 3 3 3 3 3 3 7 6
#> [727] 16 10 15 3 3 3 3 6 3 11 2 3 6 8 10 4 7 11 12 4 4 4
#> [749] 3 3 3 3 4 6 8 6 1 5 7 7 7 8 11 11 11 5 5 5 3 3
#> [771] 3 3 3 4 3 3 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [793] 3 4 9 8 8 8 8 8 8 8 8 8 8 8 8 8 6 13 5 4 3 3
#> [815] 3 3 3 3 1 9 4 3 6 11 10 11 4 3 6 3 5 8 8 7 6 6
#> [837] 6 6 6 6 6 7 7 7 9 6 9 8 3 3 3 6 3 3 3 2 8 4
#> [859] 4 5 3 3 3 3 3 3 3 3 3 3 8 7 3 3 3 3 3 5 5 3
#> [881] 3 3 5 5 5 5 3 3 3 11 3 3 3 3 3 4 6 3 7 1 1 7
#> [903] 4 5 4 4 4 4 3 3 11 3 4 10 3 3 3 3 3 5 8 3 6 10
#> [925] 7 1 4 3 3 5 4 10 4 3 8 3 7 7 4 4 12 3 7 5 6 3
#> [947] 3 3 4 6 7 3 3 3 3 3 3 3 3 3 3 3 3 6 5 1 5 3
#> [969] 3 3 4 6 4 6 5 5 7 5 3 3 3 3 3 3 3 3 3 3 3 3
#> [991] 3 3 3 3 6 2 3 6 4 6 6 5 6 6 2 5 5 5 5 5 4 9
#> [1013] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1035] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 3 3 3 3 3 3 3
#> [1057] 3 8 5 5 9 9 11 11 11 5 5 5 5 5 5 5 5 5 5 5 5 5
#> [1079] 5 5 5 5 5 5 5 5 5 9 5 5 5 11 5 5 5 5 18 6 6 4
#> [1101] 4 5 5 1 4 3 3 3 3 3 3 3 3 3 3 3 5 3 3 5 3 3
#> [1123] 5 3 3 5 3 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1145] 3 3 3 3 3 3 3 3 3 3 3 3 5 3 3 3 3 3 3 3 3 3
#> [1167] 3 3 3 3 3 3 4 1 14 7 2 8 5 11 3 3 3 11 3 7 3 4
#> [1189] 3 6 3 5 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [1211] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [1233] 4 4 4 4 4 4 3 3 3 3 3 3 3 3 3 3 3 4 6 6 4 7
#> [1255] 7 7 7 6 3 4 9 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1277] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1299] 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 10 4 3
#> [1321] 3 3 5 5 7 4 4 3 3 3 3 3 3 3 5 5 9 6 5 5 5 5
#> [1343] 5 5 5 5 7 6 4 4 7 4 4 7 5 9 9 9 6 6 5 5 6 5
#> [1365] 6 6 6 5 6 4 6 6 6 6 4 5 5 8 7 4 5 15 4 3 3 3
#> [1387] 3 3 3 3 3 5 3 5 5 5 5 4 4 6 15 4 6 5 5 5 5 5
#> [1409] 5 5 5 5 5 3 3 3 3 3 3 8 4 5 5 3 3 3 5 4 5 4
#> [1431] 8 1 4 4 4 12 8 3 3 3 3 3 3 3 6 5 3 5 3 5 5 3
#> [1453] 5 5 5 5 5 5 5 5 5 5 10 10 4 4 4 4 3 3 3 3 3 3
#> [1475] 3 3 3 3 3 3 8 8 5 5 5 5 5 5 13 3 3 3 3 3 3 3
#> [1497] 3 3 3 2 2 3 2 2 2 2 10 5 3 3 3 3 3 3 3 3 3 3
#> [1519] 3 4 4 4 4 4 3 1 7 4 5 3 5 3 5 5 3 5 5 3 5 5
#> [1541] 7 7 4 8 5 5 6 6 6 13 3 3 3 3 3 3 3 3 6 5 4 8
#> [1563] 9 8 8 9 7 8 10 8 6 8 6 6 6 7 6 6 6 6 6 5 5 5
#> [1585] 5 5 5 5 5 7 7 7 7 7 3 3 3 3 3 3 3 3 3 3 3 3
#> [1607] 14 13 10 4 3 8 3 5 4 4 4 18 7 3 3 3 3 3 3 3 3 6
#> [1629] 3 3 3 4 7 3 3 3 6 3 3 7 3 3 3 3 3 3 3 3 3 3
#> [1651] 3 3 5 6 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1673] 3 7 4 3 3 3 6 1 3 3 3 2 2 3 3 3 3 5 3 7 5 7
#> [1695] 7 5 6 5 6 5 7 6 5 3 4 9 4 4 3 4 3 4 6 6 3 6
#> [1717] 6 6 3 3 3 3 3 3 4 4 6 3 6 12 3 3 3 3 3 3 6 4
#> [1739] 6 6 6 4 4 12 9 4 4 4 3 3 3 3 3 3 3 3 3 3 3 3
#> [1761] 3 5 4 3 3 3 3 3 4 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1783] 3 3 3 3 3 3 3 3 3 3 3 3 7 3 1 1 1 3 3 3 1 3
#> [1805] 3 3 3 3 5 3 3 4 16 6 6 6 6 6 5 6 6 6 6 6 6 6
#> [1827] 6 6 6 6 6 10 3 4 4 6 6 1 3 3 6 3 4 4 4 4 4 4
#> [1849] 4 4 6 3 10 8 6 3 13 7 6 6 6 6 6 6 6 6 6 6 6 6
#> [1871] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 4 6 6 4 4
#> [1893] 3 6 6 3 3 4 4 3 3 3 3 3 3 3 3 3 7 3 3 3 3 3
#> [1915] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 5 6 5 5 3 5 5 5
#> [1937] 5 5 3 5 5 6 6 6 6 6 6 6 6 6 9 3 3 3 3 3 6 3
#> [1959] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [1981] 3 3 3 4 4 4 4 1 4 6 6 3 9 9 9 3 3 4 5 6 6 6
#> [2003] 6 6 6 6 6 6 6 4 2 2 5 3 3 8 8 8 8 8 8 8 8 8
#> [2025] 8 8 8 3 3 3 3 3 3 3 3 3 3 3 3 8 9 9 9 3 7 2
#> [2047] 2 4 3 4 4 4 4 4 7 7 4 3 3 3 3 3 3 3 3 3 3 3
#> [2069] 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4
#> [2091] 4 4 2 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2113] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2135] 3 3 3 3 3 3 3 3 3 3 3 6 6 4 4 4 4 2 3 3 3 3
#> [2157] 3 3 3 3 4 4 7 3 3 3 4 12 10 3 4 7 6 17 7 6 6 6
#> [2179] 6 3 3 3 3 3 3 7 7 7 7 7 7 6 6 6 6 6 7 10 12 3
#> [2201] 5 6 6 4 6 5 4 4 3 3 8 5 2 11 10 9 9 11 8 7 7 7
#> [2223] 9 8 3 3 17 6 6 1 4 8 5 5 5 5 3 3 3 3 3 5 5 3
#> [2245] 5 5 3 3 3 3 3 3 3 3 3 3 3 5 5 5 5 5 5 5 5 5
#> [2267] 5 5 5 5 5 5 5 5 7 7 7 7 7 7 7 13 3 1 16 10 6 7
#> [2289] 3 5 6 4 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2311] 3 3 7 3 4 8 3 3 6 3 4 7 8 2 10 6 6 1 1 10 9 9
#> [2333] 9 9 9 4 6 6 6 6 6 6 6 6 6 6 5 3 14 3 3 5 9 6
#> [2355] 6 6 4 12 7 7 11 11 8 6 3 3 3 3 3 3 3 3 3 3 3 3
#> [2377] 3 6 7 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 6 5 4 7
#> [2399] 3 4 4 6 6 6 7 6 7 7 7 7 12 19 3 5 5 5 5 5 5 5
#> [2421] 5 5 3 5 5 3 3 5 5 3 6 6 6 6 6 6 6 6 6 6 6 6
#> [2443] 6 6 6 6 6 6 6 6 2 7 4 5 3 3 3 3 3 3 3 3 3 3
#> [2465] 3 8 6 6 3 7 6 6 10 3 6 6 16 6 6 6 6 6 6 11 3 4
#> [2487] 4 3 3 3 3 3 3 3 8 6 3 3 3 3 6 4 6 6 6 6 6 6
#> [2509] 6 6 6 6 6 6 6 6 3 3 5 7 5 3 3 3 3 3 3 3 3 3
#> [2531] 3 3 3 3 3 3 3 3 3 3 3 9 9 3 9 8 6 3 3 3 3 1
#> [2553] 4 3 4 7 8 6 7 5 6 3 6 6 5 6 6 4 11 3 4 3 3 3
#> [2575] 6 12 4 4 3 3 3 3 3 3 3 6 4 3 3 3 3 3 3 3 3 3
#> [2597] 3 3 3 3 3 3 3 3 3 3 3 10 8 6 4 4 2 3 6 6 17 7
#> [2619] 5 5 3 3 3 3 3 3 3 3 3 3 3 3 3 5 4 6 6 5 6 6
#> [2641] 6 5 3 3 8 10 5 8 6 3 6 4 4 9 6 17 6 5 5 5 5 5
#> [2663] 5 5 5 5 5 5 5 5 4 3 3 11 3 3 3 3 3 3 3 3 3 3
#> [2685] 3 3 3 3 3 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3
#> [2707] 3 3 5 4 4 16 6 4 6 4 9 11 6 3 3 3 8 8 3 8 8 8
#> [2729] 8 8 6 4 1 6 6 6 6 6 6 6 6 6 6 6 3 9 3 3 3 4
#> [2751] 3 6 6 6 6 10 10 9 3 6 6 4 3 7 4 7 5 5 5 7 5 9
#> [2773] 6 13 4 6 6 6 3 3 6 4 6 5 7 18 3 3 3 3 3 3 3 3
#> [2795] 3 3 4 4 17 5 3 3 3 3 3 3 5 3 3 7 7 7 7 7 6 6
#> [2817] 6 6 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2839] 3 6 16 5 19 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [2861] 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [2883] 4 4 4 4 10 5 12 12 12 5 12 6 5 6 6 6 5 6 5 7 4 12
#> [2905] 8 10 3 11 2 6 6 6 6 4 4 11 5 6 1 5 6 6 2 10 4 4
#> [2927] 6 4 6 5 5 5 3 3 3 3 3 3 3 3 3 4 6 3 3 4 4 4
#> [2949] 4 1 5 3 3 6 9 6 6 6 3 3 3 3 3 3 3 3 3 3 3 3
#> [2971] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [2993] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3015] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3037] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3059] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3081] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
#> [3103] 3 3 3 6 12 7 1 13 6 6 6 6 6 4 4 4 4 6 6 5 14 7
#> [3125] 5 4 3 3 3 3 3 4 4 4 4 4 4 1 16 17 6 3 3 5 4 4
#> [3147] 3 3 5 4 3 3 11 5 5 7 6 6 5 5 5 9 5 12 3 6 5 5
#> [3169] 5 11 1 1 5 6 6 3 3 9 10 3 4 3 3 3 3 3 3 3 3 3
#> [3191] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 7 9 3 3 3 3 3 3
#> [3213] 3 3 3 3 3 3 6 7 3 3 3 3 3 3 3 3 3 3 3 3 5 3
#> [3235] 3 3 3 6 5 3 3 3 3 3 3 3 3 3 3 3 3 3 3 5 10 7
#> [3257] 3 3 3 3 3 3 3 3 7 3 4 4 6 6 6 6 6 6 6 7 2 4
#> [3279] 8 3 3 3 3 3 6 1 5 6 6 6 6 6 6 3 7 7 3 3 3 3
#> [3301] 3 3 7 6 8 5 4 4 3 3 3 5 9 9 4 3 9 6 6 4 3 1
#> [3323] 5 5 5 5 5 5 7 1 3 9 3 9 15 15 12 8 5 19 4 4 7 7
#> [3345] 6 17 2 4 5 9 4 5 6 6 6 6 6 6 6 6 6 6 7 7 4 4
#> [3367] 4 6 6 6 6 6 6 6 6 6 3 6 3 5 3 3 16 5 3 8 3 3
#> [3389] 3 3 3 3 3 9 6 7 19 4 6 7 7 10 9 8 7 7 8 5 4 10
#> [3411] 4 3 3 5 4 5 5 6 6 14 7 8 8 8 8 8 8 8 8 8 4 4
#> [3433] 1 3 15 7 4 3 4 4 4 7 4 4 11 6 9 6 4 6 4 3 3 3
#> [3455] 3 3 4 3 4 6 15 7 3 3 3 9 3 3 3 3 3 4 5 5 5 1
#> [3477] 6 3 4 6 6 4 4 6 6 6 6 5 3 16 12 2 11 5 5 3 10 10
#> [3499] 2 3 3 3 5 5 5 5 17 5 8 9 15 3 3 3 6 3 3 3 3 3
#> [3521] 3 8 9 7 19 13 4 4 4 16 8 8 15 9 3 7 7 7 7 1 11 11
#> [3543] 7 3 3 3 4 4 4 4 15 15 15 15 8 8 13 1 4 8 8 7 7 6
#> [3565] 6 6 6 6 6 6 4 4 4 2 3 4 7 5 6 6 8 9 7 2 2 2
#> [3587] 4 3 4 6 10 6 6 6 6 5 10 7 13 11 11 3 5 8 4 15 8 19
#> [3609] 5 8 5 4 4 4 5 5 5 5 7 6 4 6 6 6 6 6 6 6 10 6
#> [3631] 5 5 6 3 3 6 11 4 5 4 4 4 4 5 5 7 4 4 4 4 4 4
#> [3653] 4 4 6 3 2 5 18 18 17 6 8 8 3 3 4 3 3 4 6 6 14 8
#> [3675] 5 7 6 7 12 10 4 6 6 6 8 10 7 4 4 4 4 4 4 8 8 5
#> [3697] 6 9 9 9 5 8 8 3 3 3 3 3 3 3 3 3 3 3 3 3 3 2
#> [3719] 18 5 8 11 4 3 3 11 4 9 9 4 6 9 4 7 4 8 5 6 6 6
#> [3741] 6 6 6 6 6 3 3 7 4 4 4 4 4 1 7 3 3 3 3 3 3 9
#> [3763] 5 4 4 4 4 4 4 4 3 11 8 8 6 10 4 13 3 3 12 4 5 3
#> [3785] 13 3 3 5 7 12 4 4 15 3 4 4 4 4 4 8 8 4 5 5 6 3
#> [3807] 6 6 6 6 5 5 4 6 3 4 6 6 7 4 8 7 7 7 7 7 7 7
#> [3829] 7 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 5 6 6 6 6 6
#> [3851] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3873] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3895] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3917] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [3939] 6 6 6 6 6 6 6 6 6 4 4 4 3 3 3 4 1 3 3 3 6 6
#> [3961] 4 10 9 3 4 3 9 4 8 3 3 3 3 3 3 3 5 2 7 8 3 6
#> [3983] 6 3 3 8 6 7 4 7 7 7 15 7 5 7 3 5 3 6 7 4 4 4
#> [4005] 4 4 4 4 4 8 7 7 7 8 4 4 3 5 6 4 8 4 4 3 8 3
#> [4027] 4 7 3 3 3 5 4 5 3 10 5 7 6 3 3 4 4 4 4 4 5 4
#> [4049] 4 4 6 10 3 6 16 3 15 6 7 4 6 18 4 10 6 3 8 11 3 9
#> [4071] 11 8 16 4 5 6 6 6 5 4 4 6 5 1 6 10 12 9 6 6 3 7
#> [4093] 6 5 7 7 3 3 4 6 3 3 3 3 3 3 3 5 1 5 12 10 3 4
#> [4115] 8 11 8 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
#> [4137] 4 4 4 4 4 4 4 4 8 7 1 7 4 3 3 3 3 5 7 4 6 6
#> [4159] 6 6 6 6 6 6 6 6 4 3 3 5 3 3 3 16 10 3 17 5 5 5
#> [4181] 4 4 4 4 4 10 4 9 9 9 4 5 4 4 8 9 4 1 4 5 5 5
#> [4203] 6 5 5 4 8 10 12 4 9 15 3 4 4 4 4 3 1 3 7 7 7 7
#> [4225] 7 3 3 3 4 4 6 3 3 3 4 3 3 3 9 14 3 1 7 6 6 6
#> [4247] 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
#> [4269] 6 6 6 6 7 6 6 6 6 6 6 6 6 6 6 4
tidy(tate_rec, number = 1)
#> # A tibble: 1 × 3
#> terms functions id
#> <chr> <chr> <chr>
#> 1 medium NA textfeature_ahRZP
tidy(tate_obj, number = 1)
#> # A tibble: 27 × 3
#> terms functions id
#> <chr> <chr> <chr>
#> 1 medium n_words textfeature_ahRZP
#> 2 medium n_uq_words textfeature_ahRZP
#> 3 medium n_charS textfeature_ahRZP
#> 4 medium n_uq_charS textfeature_ahRZP
#> 5 medium n_digits textfeature_ahRZP
#> 6 medium n_hashtags textfeature_ahRZP
#> 7 medium n_uq_hashtags textfeature_ahRZP
#> 8 medium n_mentions textfeature_ahRZP
#> 9 medium n_uq_mentions textfeature_ahRZP
#> 10 medium n_commas textfeature_ahRZP
#> # ℹ 17 more rows
# Using custom extraction functions
nchar_round_10 <- function(x) round(nchar(x) / 10) * 10
recipe(~., data = tate_text) %>%
step_textfeature(medium,
extract_functions = list(nchar10 = nchar_round_10)
) %>%
prep() %>%
bake(new_data = NULL)
#> # A tibble: 4,284 × 5
#> id artist title year textfeature_medium_n…¹
#> <dbl> <fct> <fct> <dbl> <dbl>
#> 1 21926 Absalon Proposals for a… 1990 60
#> 2 20472 Auerbach, Frank Michael 1990 20
#> 3 20474 Auerbach, Frank Geoffrey 1990 20
#> 4 20473 Auerbach, Frank Jake 1990 20
#> 5 20513 Auerbach, Frank To the Studios 1990 20
#> 6 21389 Ayres, OBE Gillian Phaëthon 1990 20
#> 7 121187 Barlow, Phyllida Untitled 1990 20
#> 8 19455 Baselitz, Georg Green VIII 1990 20
#> 9 20938 Beattie, Basil Present Bound 1990 30
#> 10 105941 Beuys, Joseph Joseph Beuys: A… 1990 10
#> # ℹ 4,274 more rows
#> # ℹ abbreviated name: ¹textfeature_medium_nchar10
相关用法
- R textrecipes step_text_normalization 字符变量的标准化
- R textrecipes step_texthash 代币的特征哈希
- R textrecipes step_tokenize_wordpiece 字符变量的Wordpiece标记化
- R textrecipes step_tokenfilter 根据词频过滤标记
- R textrecipes step_tokenize_sentencepiece 字符变量的句子标记化
- R textrecipes step_tokenmerge 将多个令牌变量合并为一个
- R textrecipes step_tf 代币的使用频率
- R textrecipes step_tokenize 字符变量的标记化
- R textrecipes step_tfidf 词频-令牌的逆文档频率
- R textrecipes step_tokenize_bpe 字符变量的 BPE 标记化
- R textrecipes step_lemma 标记变量的词形还原
- R textrecipes step_clean_names 干净的变量名称
- R textrecipes step_word_embeddings 令牌的预训练词嵌入
- R textrecipes step_stem 令牌变量的词干
- R textrecipes step_ngram 从标记变量生成 n-gram
- R textrecipes step_stopwords 过滤标记变量的停用词
- R textrecipes step_pos_filter 令牌变量的语音过滤部分
- R textrecipes step_untokenize 令牌变量的取消令牌化
- R textrecipes step_lda 计算代币的LDA维度估计
- R textrecipes step_clean_levels 清晰的分类级别
- R textrecipes step_sequence_onehot 令牌的位置 One-Hot 编码
- R textrecipes step_dummy_hash 通过特征哈希的指示变量
- R textrecipes show_tokens 显示配方的令牌输出
- R textrecipes tokenlist 创建令牌对象
- R update_PACKAGES 更新现有的 PACKAGES 文件
注:本文由纯净天空筛选整理自等大神的英文原创作品 Calculate Set of Text Features。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。