当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R textrecipes step_textfeature 计算文本特征集


step_textfeature() 创建配方步骤的规范,该步骤将提取文本列的许多数字特征。

用法

step_textfeature(
  recipe,
  ...,
  role = "predictor",
  trained = FALSE,
  columns = NULL,
  extract_functions = textfeatures::count_functions,
  prefix = "textfeature",
  keep_original_cols = FALSE,
  skip = FALSE,
  id = rand_id("textfeature")
)

参数

recipe

一个recipe 对象。该步骤将添加到此配方的操作序列中。

...

一个或多个选择器函数用于选择受该步骤影响的变量。有关更多详细信息,请参阅recipes::selections()

role

对于此步骤创建的模型项,应为它们分配什么分析角色?默认情况下,该函数假定由原始变量创建的新列将用作模型中的预测变量。

trained

指示预处理数量是否已估计的逻辑。

columns

将由 terms 参数(最终)填充的变量名称字符串。在 recipes::prep.recipe() 训练该步骤之前,这是 NULL

extract_functions

特征提取函数的命名列表。默认为 textfeatures 包中的count_functions。请参阅详细信息以获取更多信息。

prefix

生成的列名称的前缀,默认为"textfeature"。

keep_original_cols

将原始变量保留在输出中的逻辑。默认为 FALSE

skip

一个合乎逻辑的。当recipes::bake.recipe() 烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在 recipes::prep.recipe() 运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用 skip = FALSE 时应小心。

id

该步骤特有的字符串,用于标识它。

recipe 的更新版本,其中新步骤添加到现有步骤(如果有)的序列中。

细节

此步骤将采用字符列并返回数字列的数量,该数字列的数量等于传递给 extract_functions 参数的列表中的函数数量。默认值是 textfeatures 包中的函数列表。

传递给 extract_functions 的所有函数都必须以字符向量作为输入并返回相同长度的数值向量,否则将引发错误。

整理

当您tidy()此步骤时,会出现一个包含列terms(所选选择器或变量)和functions(特征函数名称)的小标题。

箱重

底层操作不允许使用案例权重。

也可以看看

来自字符的数字变量的其他步骤:step_dummy_hash()step_sequence_onehot()

例子

library(recipes)
library(modeldata)
data(tate_text)

tate_rec <- recipe(~., data = tate_text) %>%
  step_textfeature(medium)

tate_obj <- tate_rec %>%
  prep()

bake(tate_obj, new_data = NULL) %>%
  slice(1:2)
#> # A tibble: 2 × 31
#>      id artist   title  year textfeature_medium_n…¹ textfeature_medium_n…²
#>   <dbl> <fct>    <fct> <dbl>                  <int>                  <int>
#> 1 21926 Absalon  Prop…  1990                      8                      8
#> 2 20472 Auerbac… Mich…  1990                      3                      3
#> # ℹ abbreviated names: ¹textfeature_medium_n_words,
#> #   ²textfeature_medium_n_uq_words
#> # ℹ 25 more variables: textfeature_medium_n_charS <int>,
#> #   textfeature_medium_n_uq_charS <int>,
#> #   textfeature_medium_n_digits <int>,
#> #   textfeature_medium_n_hashtags <int>,
#> #   textfeature_medium_n_uq_hashtags <int>, …

bake(tate_obj, new_data = NULL) %>%
  pull(textfeature_medium_n_words)
#>    [1]  8  3  3  3  4  4  4  3  6  3  3  3  3  3  3  3  6  7  9  4  4  3
#>   [23]  3  3  3  3  3  3  3  5  8  4  4  3  3  3  3  3  3  1  5  4  1 10
#>   [45]  3  3  3  3  3  3  3  3  3  5  9  5  6  6  4  4  4  4  6  3  3  3
#>   [67]  3  4  3  6  3  3  3  5 10  3  3  4 15  3  8  6 10 12  5  3  4  3
#>   [89]  3  3  3  3  3  3  3  4  3  3  3  3  5  3  5  3  3  3  4  5  6  3
#>  [111]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [133]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [155]  3  3  3  3  3  6  3  6  6  1  5  8  1  4  6  6  6  4  7  5  3  3
#>  [177]  3  3  7  3  3  3  3  6  3  3  6  4  8 11  4 11  3  3  4  3  6  6
#>  [199]  3  3  6  3  6  8  7  5  6  3  6  5  5  3  5  5  3  3  3  3  3  3
#>  [221]  7  7  7  7  7  7  7  7  5  5  3  3  3  3  3  3  3  3  3  3 19  6
#>  [243]  3  3  3  6  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  4  3
#>  [265]  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  5  5
#>  [287]  5  5  5  3  6  7  7  6  6  4  4  4  4  4  4  4  4  6  6 10  3  3
#>  [309]  4  4  7  3  3  6  1 14 14 10  9  6  9  4  9  4 13  3  6  6  4  4
#>  [331]  4  4  5 11  4  4  8  9 11  5  3  3  3  3  3  3  3  3  3  3  3  3
#>  [353]  4  5  3  4 12 10  3  3  3  3  3  3  3  3  1  1  3  3  3  8  6  5
#>  [375]  8  6  5  5  5  5  7  3  3  3  3  3  2  7  7  7  4  4  3  5  5  5
#>  [397]  5  5  5  6  6  6  6  6  5  6  7  9  6  2  8  3  5  4  2 17 18  4
#>  [419]  3  3  3 10  3  4  3  3 10  7  5  7  3  5  7  5  5  7  5  5  5  7
#>  [441]  3  5  5  7  5  8  5  5  5  5  6  8  8  9  6  6  6  6  4  3  6  6
#>  [463]  4  4  1  3  3  3  3  3  3  3  3  3  3  3  1  9  3  3  4  4  6  6
#>  [485]  8  9  3  6  3  3  3  3  3  3  3  3  3  3  3  3  4  3  8 15 13 18
#>  [507] 12 12  3  6  6  6 11 10  3 13  4  4  3  3 10  9 13  4  7  6  4  3
#>  [529]  4  4  4  3 14  8  3  3  3  3  3  8  3  3  3  3  3  3  3  3  3  3
#>  [551]  4  4  3  3  3  3  3  3  3  3  3  3 11  6  3  6  6  1  4  7  7  3
#>  [573]  5  3  7  4  9  3  3  3  3  3  3  3  3  4  4  3  3  3  3  3  3  3
#>  [595]  6  6  6  6  5  8  3  2 10  3  5  4  3  3  3  6 17  4  1  3  3  3
#>  [617]  3  3  3  3  3  3  4  6  8  9  6  6  6  5  3  4  3  5  6  6  6  6
#>  [639]  6  6  5  2  7  6  7  7  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [661]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  4  7  8  7  6
#>  [683]  6  4  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [705]  3  3  4  7  5  5  5  7 10 11  9  4  4  7  3  3  3  3  3  3  7  6
#>  [727] 16 10 15  3  3  3  3  6  3 11  2  3  6  8 10  4  7 11 12  4  4  4
#>  [749]  3  3  3  3  4  6  8  6  1  5  7  7  7  8 11 11 11  5  5  5  3  3
#>  [771]  3  3  3  4  3  3  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [793]  3  4  9  8  8  8  8  8  8  8  8  8  8  8  8  8  6 13  5  4  3  3
#>  [815]  3  3  3  3  1  9  4  3  6 11 10 11  4  3  6  3  5  8  8  7  6  6
#>  [837]  6  6  6  6  6  7  7  7  9  6  9  8  3  3  3  6  3  3  3  2  8  4
#>  [859]  4  5  3  3  3  3  3  3  3  3  3  3  8  7  3  3  3  3  3  5  5  3
#>  [881]  3  3  5  5  5  5  3  3  3 11  3  3  3  3  3  4  6  3  7  1  1  7
#>  [903]  4  5  4  4  4  4  3  3 11  3  4 10  3  3  3  3  3  5  8  3  6 10
#>  [925]  7  1  4  3  3  5  4 10  4  3  8  3  7  7  4  4 12  3  7  5  6  3
#>  [947]  3  3  4  6  7  3  3  3  3  3  3  3  3  3  3  3  3  6  5  1  5  3
#>  [969]  3  3  4  6  4  6  5  5  7  5  3  3  3  3  3  3  3  3  3  3  3  3
#>  [991]  3  3  3  3  6  2  3  6  4  6  6  5  6  6  2  5  5  5  5  5  4  9
#> [1013]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1035]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  4  3  3  3  3  3  3  3
#> [1057]  3  8  5  5  9  9 11 11 11  5  5  5  5  5  5  5  5  5  5  5  5  5
#> [1079]  5  5  5  5  5  5  5  5  5  9  5  5  5 11  5  5  5  5 18  6  6  4
#> [1101]  4  5  5  1  4  3  3  3  3  3  3  3  3  3  3  3  5  3  3  5  3  3
#> [1123]  5  3  3  5  3  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1145]  3  3  3  3  3  3  3  3  3  3  3  3  5  3  3  3  3  3  3  3  3  3
#> [1167]  3  3  3  3  3  3  4  1 14  7  2  8  5 11  3  3  3 11  3  7  3  4
#> [1189]  3  6  3  5  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [1211]  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [1233]  4  4  4  4  4  4  3  3  3  3  3  3  3  3  3  3  3  4  6  6  4  7
#> [1255]  7  7  7  6  3  4  9  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1277]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1299]  3  3  3  3  3  3  3  3  3  3  3  4  4  4  4  4  4  4  4 10  4  3
#> [1321]  3  3  5  5  7  4  4  3  3  3  3  3  3  3  5  5  9  6  5  5  5  5
#> [1343]  5  5  5  5  7  6  4  4  7  4  4  7  5  9  9  9  6  6  5  5  6  5
#> [1365]  6  6  6  5  6  4  6  6  6  6  4  5  5  8  7  4  5 15  4  3  3  3
#> [1387]  3  3  3  3  3  5  3  5  5  5  5  4  4  6 15  4  6  5  5  5  5  5
#> [1409]  5  5  5  5  5  3  3  3  3  3  3  8  4  5  5  3  3  3  5  4  5  4
#> [1431]  8  1  4  4  4 12  8  3  3  3  3  3  3  3  6  5  3  5  3  5  5  3
#> [1453]  5  5  5  5  5  5  5  5  5  5 10 10  4  4  4  4  3  3  3  3  3  3
#> [1475]  3  3  3  3  3  3  8  8  5  5  5  5  5  5 13  3  3  3  3  3  3  3
#> [1497]  3  3  3  2  2  3  2  2  2  2 10  5  3  3  3  3  3  3  3  3  3  3
#> [1519]  3  4  4  4  4  4  3  1  7  4  5  3  5  3  5  5  3  5  5  3  5  5
#> [1541]  7  7  4  8  5  5  6  6  6 13  3  3  3  3  3  3  3  3  6  5  4  8
#> [1563]  9  8  8  9  7  8 10  8  6  8  6  6  6  7  6  6  6  6  6  5  5  5
#> [1585]  5  5  5  5  5  7  7  7  7  7  3  3  3  3  3  3  3  3  3  3  3  3
#> [1607] 14 13 10  4  3  8  3  5  4  4  4 18  7  3  3  3  3  3  3  3  3  6
#> [1629]  3  3  3  4  7  3  3  3  6  3  3  7  3  3  3  3  3  3  3  3  3  3
#> [1651]  3  3  5  6  1  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1673]  3  7  4  3  3  3  6  1  3  3  3  2  2  3  3  3  3  5  3  7  5  7
#> [1695]  7  5  6  5  6  5  7  6  5  3  4  9  4  4  3  4  3  4  6  6  3  6
#> [1717]  6  6  3  3  3  3  3  3  4  4  6  3  6 12  3  3  3  3  3  3  6  4
#> [1739]  6  6  6  4  4 12  9  4  4  4  3  3  3  3  3  3  3  3  3  3  3  3
#> [1761]  3  5  4  3  3  3  3  3  4  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1783]  3  3  3  3  3  3  3  3  3  3  3  3  7  3  1  1  1  3  3  3  1  3
#> [1805]  3  3  3  3  5  3  3  4 16  6  6  6  6  6  5  6  6  6  6  6  6  6
#> [1827]  6  6  6  6  6 10  3  4  4  6  6  1  3  3  6  3  4  4  4  4  4  4
#> [1849]  4  4  6  3 10  8  6  3 13  7  6  6  6  6  6  6  6  6  6  6  6  6
#> [1871]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  4  6  6  4  4
#> [1893]  3  6  6  3  3  4  4  3  3  3  3  3  3  3  3  3  7  3  3  3  3  3
#> [1915]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  5  6  5  5  3  5  5  5
#> [1937]  5  5  3  5  5  6  6  6  6  6  6  6  6  6  9  3  3  3  3  3  6  3
#> [1959]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1981]  3  3  3  4  4  4  4  1  4  6  6  3  9  9  9  3  3  4  5  6  6  6
#> [2003]  6  6  6  6  6  6  6  4  2  2  5  3  3  8  8  8  8  8  8  8  8  8
#> [2025]  8  8  8  3  3  3  3  3  3  3  3  3  3  3  3  8  9  9  9  3  7  2
#> [2047]  2  4  3  4  4  4  4  4  7  7  4  3  3  3  3  3  3  3  3  3  3  3
#> [2069]  3  3  3  3  3  3  3  3  3  3  4  4  4  4  4  4  4  4  4  4  4  4
#> [2091]  4  4  2  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2113]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2135]  3  3  3  3  3  3  3  3  3  3  3  6  6  4  4  4  4  2  3  3  3  3
#> [2157]  3  3  3  3  4  4  7  3  3  3  4 12 10  3  4  7  6 17  7  6  6  6
#> [2179]  6  3  3  3  3  3  3  7  7  7  7  7  7  6  6  6  6  6  7 10 12  3
#> [2201]  5  6  6  4  6  5  4  4  3  3  8  5  2 11 10  9  9 11  8  7  7  7
#> [2223]  9  8  3  3 17  6  6  1  4  8  5  5  5  5  3  3  3  3  3  5  5  3
#> [2245]  5  5  3  3  3  3  3  3  3  3  3  3  3  5  5  5  5  5  5  5  5  5
#> [2267]  5  5  5  5  5  5  5  5  7  7  7  7  7  7  7 13  3  1 16 10  6  7
#> [2289]  3  5  6  4  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2311]  3  3  7  3  4  8  3  3  6  3  4  7  8  2 10  6  6  1  1 10  9  9
#> [2333]  9  9  9  4  6  6  6  6  6  6  6  6  6  6  5  3 14  3  3  5  9  6
#> [2355]  6  6  4 12  7  7 11 11  8  6  3  3  3  3  3  3  3  3  3  3  3  3
#> [2377]  3  6  7  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  6  5  4  7
#> [2399]  3  4  4  6  6  6  7  6  7  7  7  7 12 19  3  5  5  5  5  5  5  5
#> [2421]  5  5  3  5  5  3  3  5  5  3  6  6  6  6  6  6  6  6  6  6  6  6
#> [2443]  6  6  6  6  6  6  6  6  2  7  4  5  3  3  3  3  3  3  3  3  3  3
#> [2465]  3  8  6  6  3  7  6  6 10  3  6  6 16  6  6  6  6  6  6 11  3  4
#> [2487]  4  3  3  3  3  3  3  3  8  6  3  3  3  3  6  4  6  6  6  6  6  6
#> [2509]  6  6  6  6  6  6  6  6  3  3  5  7  5  3  3  3  3  3  3  3  3  3
#> [2531]  3  3  3  3  3  3  3  3  3  3  3  9  9  3  9  8  6  3  3  3  3  1
#> [2553]  4  3  4  7  8  6  7  5  6  3  6  6  5  6  6  4 11  3  4  3  3  3
#> [2575]  6 12  4  4  3  3  3  3  3  3  3  6  4  3  3  3  3  3  3  3  3  3
#> [2597]  3  3  3  3  3  3  3  3  3  3  3 10  8  6  4  4  2  3  6  6 17  7
#> [2619]  5  5  3  3  3  3  3  3  3  3  3  3  3  3  3  5  4  6  6  5  6  6
#> [2641]  6  5  3  3  8 10  5  8  6  3  6  4  4  9  6 17  6  5  5  5  5  5
#> [2663]  5  5  5  5  5  5  5  5  4  3  3 11  3  3  3  3  3  3  3  3  3  3
#> [2685]  3  3  3  3  3  3  3  3  3  3  3  3  3  2  3  3  3  3  3  3  3  3
#> [2707]  3  3  5  4  4 16  6  4  6  4  9 11  6  3  3  3  8  8  3  8  8  8
#> [2729]  8  8  6  4  1  6  6  6  6  6  6  6  6  6  6  6  3  9  3  3  3  4
#> [2751]  3  6  6  6  6 10 10  9  3  6  6  4  3  7  4  7  5  5  5  7  5  9
#> [2773]  6 13  4  6  6  6  3  3  6  4  6  5  7 18  3  3  3  3  3  3  3  3
#> [2795]  3  3  4  4 17  5  3  3  3  3  3  3  5  3  3  7  7  7  7  7  6  6
#> [2817]  6  6  1  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2839]  3  6 16  5 19  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [2861]  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [2883]  4  4  4  4 10  5 12 12 12  5 12  6  5  6  6  6  5  6  5  7  4 12
#> [2905]  8 10  3 11  2  6  6  6  6  4  4 11  5  6  1  5  6  6  2 10  4  4
#> [2927]  6  4  6  5  5  5  3  3  3  3  3  3  3  3  3  4  6  3  3  4  4  4
#> [2949]  4  1  5  3  3  6  9  6  6  6  3  3  3  3  3  3  3  3  3  3  3  3
#> [2971]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2993]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3015]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3037]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3059]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3081]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3103]  3  3  3  6 12  7  1 13  6  6  6  6  6  4  4  4  4  6  6  5 14  7
#> [3125]  5  4  3  3  3  3  3  4  4  4  4  4  4  1 16 17  6  3  3  5  4  4
#> [3147]  3  3  5  4  3  3 11  5  5  7  6  6  5  5  5  9  5 12  3  6  5  5
#> [3169]  5 11  1  1  5  6  6  3  3  9 10  3  4  3  3  3  3  3  3  3  3  3
#> [3191]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  7  9  3  3  3  3  3  3
#> [3213]  3  3  3  3  3  3  6  7  3  3  3  3  3  3  3  3  3  3  3  3  5  3
#> [3235]  3  3  3  6  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  5 10  7
#> [3257]  3  3  3  3  3  3  3  3  7  3  4  4  6  6  6  6  6  6  6  7  2  4
#> [3279]  8  3  3  3  3  3  6  1  5  6  6  6  6  6  6  3  7  7  3  3  3  3
#> [3301]  3  3  7  6  8  5  4  4  3  3  3  5  9  9  4  3  9  6  6  4  3  1
#> [3323]  5  5  5  5  5  5  7  1  3  9  3  9 15 15 12  8  5 19  4  4  7  7
#> [3345]  6 17  2  4  5  9  4  5  6  6  6  6  6  6  6  6  6  6  7  7  4  4
#> [3367]  4  6  6  6  6  6  6  6  6  6  3  6  3  5  3  3 16  5  3  8  3  3
#> [3389]  3  3  3  3  3  9  6  7 19  4  6  7  7 10  9  8  7  7  8  5  4 10
#> [3411]  4  3  3  5  4  5  5  6  6 14  7  8  8  8  8  8  8  8  8  8  4  4
#> [3433]  1  3 15  7  4  3  4  4  4  7  4  4 11  6  9  6  4  6  4  3  3  3
#> [3455]  3  3  4  3  4  6 15  7  3  3  3  9  3  3  3  3  3  4  5  5  5  1
#> [3477]  6  3  4  6  6  4  4  6  6  6  6  5  3 16 12  2 11  5  5  3 10 10
#> [3499]  2  3  3  3  5  5  5  5 17  5  8  9 15  3  3  3  6  3  3  3  3  3
#> [3521]  3  8  9  7 19 13  4  4  4 16  8  8 15  9  3  7  7  7  7  1 11 11
#> [3543]  7  3  3  3  4  4  4  4 15 15 15 15  8  8 13  1  4  8  8  7  7  6
#> [3565]  6  6  6  6  6  6  4  4  4  2  3  4  7  5  6  6  8  9  7  2  2  2
#> [3587]  4  3  4  6 10  6  6  6  6  5 10  7 13 11 11  3  5  8  4 15  8 19
#> [3609]  5  8  5  4  4  4  5  5  5  5  7  6  4  6  6  6  6  6  6  6 10  6
#> [3631]  5  5  6  3  3  6 11  4  5  4  4  4  4  5  5  7  4  4  4  4  4  4
#> [3653]  4  4  6  3  2  5 18 18 17  6  8  8  3  3  4  3  3  4  6  6 14  8
#> [3675]  5  7  6  7 12 10  4  6  6  6  8 10  7  4  4  4  4  4  4  8  8  5
#> [3697]  6  9  9  9  5  8  8  3  3  3  3  3  3  3  3  3  3  3  3  3  3  2
#> [3719] 18  5  8 11  4  3  3 11  4  9  9  4  6  9  4  7  4  8  5  6  6  6
#> [3741]  6  6  6  6  6  3  3  7  4  4  4  4  4  1  7  3  3  3  3  3  3  9
#> [3763]  5  4  4  4  4  4  4  4  3 11  8  8  6 10  4 13  3  3 12  4  5  3
#> [3785] 13  3  3  5  7 12  4  4 15  3  4  4  4  4  4  8  8  4  5  5  6  3
#> [3807]  6  6  6  6  5  5  4  6  3  4  6  6  7  4  8  7  7  7  7  7  7  7
#> [3829]  7  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  5  6  6  6  6  6
#> [3851]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3873]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3895]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3917]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3939]  6  6  6  6  6  6  6  6  6  4  4  4  3  3  3  4  1  3  3  3  6  6
#> [3961]  4 10  9  3  4  3  9  4  8  3  3  3  3  3  3  3  5  2  7  8  3  6
#> [3983]  6  3  3  8  6  7  4  7  7  7 15  7  5  7  3  5  3  6  7  4  4  4
#> [4005]  4  4  4  4  4  8  7  7  7  8  4  4  3  5  6  4  8  4  4  3  8  3
#> [4027]  4  7  3  3  3  5  4  5  3 10  5  7  6  3  3  4  4  4  4  4  5  4
#> [4049]  4  4  6 10  3  6 16  3 15  6  7  4  6 18  4 10  6  3  8 11  3  9
#> [4071] 11  8 16  4  5  6  6  6  5  4  4  6  5  1  6 10 12  9  6  6  3  7
#> [4093]  6  5  7  7  3  3  4  6  3  3  3  3  3  3  3  5  1  5 12 10  3  4
#> [4115]  8 11  8  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [4137]  4  4  4  4  4  4  4  4  8  7  1  7  4  3  3  3  3  5  7  4  6  6
#> [4159]  6  6  6  6  6  6  6  6  4  3  3  5  3  3  3 16 10  3 17  5  5  5
#> [4181]  4  4  4  4  4 10  4  9  9  9  4  5  4  4  8  9  4  1  4  5  5  5
#> [4203]  6  5  5  4  8 10 12  4  9 15  3  4  4  4  4  3  1  3  7  7  7  7
#> [4225]  7  3  3  3  4  4  6  3  3  3  4  3  3  3  9 14  3  1  7  6  6  6
#> [4247]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [4269]  6  6  6  6  7  6  6  6  6  6  6  6  6  6  6  4

tidy(tate_rec, number = 1)
#> # A tibble: 1 × 3
#>   terms  functions id               
#>   <chr>  <chr>     <chr>            
#> 1 medium NA        textfeature_ahRZP
tidy(tate_obj, number = 1)
#> # A tibble: 27 × 3
#>    terms  functions     id               
#>    <chr>  <chr>         <chr>            
#>  1 medium n_words       textfeature_ahRZP
#>  2 medium n_uq_words    textfeature_ahRZP
#>  3 medium n_charS       textfeature_ahRZP
#>  4 medium n_uq_charS    textfeature_ahRZP
#>  5 medium n_digits      textfeature_ahRZP
#>  6 medium n_hashtags    textfeature_ahRZP
#>  7 medium n_uq_hashtags textfeature_ahRZP
#>  8 medium n_mentions    textfeature_ahRZP
#>  9 medium n_uq_mentions textfeature_ahRZP
#> 10 medium n_commas      textfeature_ahRZP
#> # ℹ 17 more rows

# Using custom extraction functions
nchar_round_10 <- function(x) round(nchar(x) / 10) * 10

recipe(~., data = tate_text) %>%
  step_textfeature(medium,
    extract_functions = list(nchar10 = nchar_round_10)
  ) %>%
  prep() %>%
  bake(new_data = NULL)
#> # A tibble: 4,284 × 5
#>        id artist             title             year textfeature_medium_n…¹
#>     <dbl> <fct>              <fct>            <dbl>                  <dbl>
#>  1  21926 Absalon            Proposals for a…  1990                     60
#>  2  20472 Auerbach, Frank    Michael           1990                     20
#>  3  20474 Auerbach, Frank    Geoffrey          1990                     20
#>  4  20473 Auerbach, Frank    Jake              1990                     20
#>  5  20513 Auerbach, Frank    To the Studios    1990                     20
#>  6  21389 Ayres, OBE Gillian Phaëthon          1990                     20
#>  7 121187 Barlow, Phyllida   Untitled          1990                     20
#>  8  19455 Baselitz, Georg    Green VIII        1990                     20
#>  9  20938 Beattie, Basil     Present Bound     1990                     30
#> 10 105941 Beuys, Joseph      Joseph Beuys: A…  1990                     10
#> # ℹ 4,274 more rows
#> # ℹ abbreviated name: ¹textfeature_medium_nchar10
源代码:R/textfeature.R

相关用法


注:本文由纯净天空筛选整理自大神的英文原创作品 Calculate Set of Text Features。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。