當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R textrecipes step_textfeature 計算文本特征集


step_textfeature() 創建配方步驟的規範,該步驟將提取文本列的許多數字特征。

用法

step_textfeature(
  recipe,
  ...,
  role = "predictor",
  trained = FALSE,
  columns = NULL,
  extract_functions = textfeatures::count_functions,
  prefix = "textfeature",
  keep_original_cols = FALSE,
  skip = FALSE,
  id = rand_id("textfeature")
)

參數

recipe

一個recipe 對象。該步驟將添加到此配方的操作序列中。

...

一個或多個選擇器函數用於選擇受該步驟影響的變量。有關更多詳細信息,請參閱recipes::selections()

role

對於此步驟創建的模型項,應為它們分配什麽分析角色?默認情況下,該函數假定由原始變量創建的新列將用作模型中的預測變量。

trained

指示預處理數量是否已估計的邏輯。

columns

將由 terms 參數(最終)填充的變量名稱字符串。在 recipes::prep.recipe() 訓練該步驟之前,這是 NULL

extract_functions

特征提取函數的命名列表。默認為 textfeatures 包中的count_functions。請參閱詳細信息以獲取更多信息。

prefix

生成的列名稱的前綴,默認為"textfeature"。

keep_original_cols

將原始變量保留在輸出中的邏輯。默認為 FALSE

skip

一個合乎邏輯的。當recipes::bake.recipe() 烘焙食譜時是否應該跳過此步驟?雖然所有操作都是在 recipes::prep.recipe() 運行時烘焙的,但某些操作可能無法對新數據進行(例如處理結果變量)。使用 skip = FALSE 時應小心。

id

該步驟特有的字符串,用於標識它。

recipe 的更新版本,其中新步驟添加到現有步驟(如果有)的序列中。

細節

此步驟將采用字符列並返回數字列的數量,該數字列的數量等於傳遞給 extract_functions 參數的列表中的函數數量。默認值是 textfeatures 包中的函數列表。

傳遞給 extract_functions 的所有函數都必須以字符向量作為輸入並返回相同長度的數值向量,否則將引發錯誤。

整理

當您tidy()此步驟時,會出現一個包含列terms(所選選擇器或變量)和functions(特征函數名稱)的小標題。

箱重

底層操作不允許使用案例權重。

也可以看看

來自字符的數字變量的其他步驟:step_dummy_hash()step_sequence_onehot()

例子

library(recipes)
library(modeldata)
data(tate_text)

tate_rec <- recipe(~., data = tate_text) %>%
  step_textfeature(medium)

tate_obj <- tate_rec %>%
  prep()

bake(tate_obj, new_data = NULL) %>%
  slice(1:2)
#> # A tibble: 2 × 31
#>      id artist   title  year textfeature_medium_n…¹ textfeature_medium_n…²
#>   <dbl> <fct>    <fct> <dbl>                  <int>                  <int>
#> 1 21926 Absalon  Prop…  1990                      8                      8
#> 2 20472 Auerbac… Mich…  1990                      3                      3
#> # ℹ abbreviated names: ¹textfeature_medium_n_words,
#> #   ²textfeature_medium_n_uq_words
#> # ℹ 25 more variables: textfeature_medium_n_charS <int>,
#> #   textfeature_medium_n_uq_charS <int>,
#> #   textfeature_medium_n_digits <int>,
#> #   textfeature_medium_n_hashtags <int>,
#> #   textfeature_medium_n_uq_hashtags <int>, …

bake(tate_obj, new_data = NULL) %>%
  pull(textfeature_medium_n_words)
#>    [1]  8  3  3  3  4  4  4  3  6  3  3  3  3  3  3  3  6  7  9  4  4  3
#>   [23]  3  3  3  3  3  3  3  5  8  4  4  3  3  3  3  3  3  1  5  4  1 10
#>   [45]  3  3  3  3  3  3  3  3  3  5  9  5  6  6  4  4  4  4  6  3  3  3
#>   [67]  3  4  3  6  3  3  3  5 10  3  3  4 15  3  8  6 10 12  5  3  4  3
#>   [89]  3  3  3  3  3  3  3  4  3  3  3  3  5  3  5  3  3  3  4  5  6  3
#>  [111]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [133]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [155]  3  3  3  3  3  6  3  6  6  1  5  8  1  4  6  6  6  4  7  5  3  3
#>  [177]  3  3  7  3  3  3  3  6  3  3  6  4  8 11  4 11  3  3  4  3  6  6
#>  [199]  3  3  6  3  6  8  7  5  6  3  6  5  5  3  5  5  3  3  3  3  3  3
#>  [221]  7  7  7  7  7  7  7  7  5  5  3  3  3  3  3  3  3  3  3  3 19  6
#>  [243]  3  3  3  6  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  4  3
#>  [265]  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  5  5
#>  [287]  5  5  5  3  6  7  7  6  6  4  4  4  4  4  4  4  4  6  6 10  3  3
#>  [309]  4  4  7  3  3  6  1 14 14 10  9  6  9  4  9  4 13  3  6  6  4  4
#>  [331]  4  4  5 11  4  4  8  9 11  5  3  3  3  3  3  3  3  3  3  3  3  3
#>  [353]  4  5  3  4 12 10  3  3  3  3  3  3  3  3  1  1  3  3  3  8  6  5
#>  [375]  8  6  5  5  5  5  7  3  3  3  3  3  2  7  7  7  4  4  3  5  5  5
#>  [397]  5  5  5  6  6  6  6  6  5  6  7  9  6  2  8  3  5  4  2 17 18  4
#>  [419]  3  3  3 10  3  4  3  3 10  7  5  7  3  5  7  5  5  7  5  5  5  7
#>  [441]  3  5  5  7  5  8  5  5  5  5  6  8  8  9  6  6  6  6  4  3  6  6
#>  [463]  4  4  1  3  3  3  3  3  3  3  3  3  3  3  1  9  3  3  4  4  6  6
#>  [485]  8  9  3  6  3  3  3  3  3  3  3  3  3  3  3  3  4  3  8 15 13 18
#>  [507] 12 12  3  6  6  6 11 10  3 13  4  4  3  3 10  9 13  4  7  6  4  3
#>  [529]  4  4  4  3 14  8  3  3  3  3  3  8  3  3  3  3  3  3  3  3  3  3
#>  [551]  4  4  3  3  3  3  3  3  3  3  3  3 11  6  3  6  6  1  4  7  7  3
#>  [573]  5  3  7  4  9  3  3  3  3  3  3  3  3  4  4  3  3  3  3  3  3  3
#>  [595]  6  6  6  6  5  8  3  2 10  3  5  4  3  3  3  6 17  4  1  3  3  3
#>  [617]  3  3  3  3  3  3  4  6  8  9  6  6  6  5  3  4  3  5  6  6  6  6
#>  [639]  6  6  5  2  7  6  7  7  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [661]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  4  7  8  7  6
#>  [683]  6  4  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [705]  3  3  4  7  5  5  5  7 10 11  9  4  4  7  3  3  3  3  3  3  7  6
#>  [727] 16 10 15  3  3  3  3  6  3 11  2  3  6  8 10  4  7 11 12  4  4  4
#>  [749]  3  3  3  3  4  6  8  6  1  5  7  7  7  8 11 11 11  5  5  5  3  3
#>  [771]  3  3  3  4  3  3  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#>  [793]  3  4  9  8  8  8  8  8  8  8  8  8  8  8  8  8  6 13  5  4  3  3
#>  [815]  3  3  3  3  1  9  4  3  6 11 10 11  4  3  6  3  5  8  8  7  6  6
#>  [837]  6  6  6  6  6  7  7  7  9  6  9  8  3  3  3  6  3  3  3  2  8  4
#>  [859]  4  5  3  3  3  3  3  3  3  3  3  3  8  7  3  3  3  3  3  5  5  3
#>  [881]  3  3  5  5  5  5  3  3  3 11  3  3  3  3  3  4  6  3  7  1  1  7
#>  [903]  4  5  4  4  4  4  3  3 11  3  4 10  3  3  3  3  3  5  8  3  6 10
#>  [925]  7  1  4  3  3  5  4 10  4  3  8  3  7  7  4  4 12  3  7  5  6  3
#>  [947]  3  3  4  6  7  3  3  3  3  3  3  3  3  3  3  3  3  6  5  1  5  3
#>  [969]  3  3  4  6  4  6  5  5  7  5  3  3  3  3  3  3  3  3  3  3  3  3
#>  [991]  3  3  3  3  6  2  3  6  4  6  6  5  6  6  2  5  5  5  5  5  4  9
#> [1013]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1035]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  4  3  3  3  3  3  3  3
#> [1057]  3  8  5  5  9  9 11 11 11  5  5  5  5  5  5  5  5  5  5  5  5  5
#> [1079]  5  5  5  5  5  5  5  5  5  9  5  5  5 11  5  5  5  5 18  6  6  4
#> [1101]  4  5  5  1  4  3  3  3  3  3  3  3  3  3  3  3  5  3  3  5  3  3
#> [1123]  5  3  3  5  3  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1145]  3  3  3  3  3  3  3  3  3  3  3  3  5  3  3  3  3  3  3  3  3  3
#> [1167]  3  3  3  3  3  3  4  1 14  7  2  8  5 11  3  3  3 11  3  7  3  4
#> [1189]  3  6  3  5  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [1211]  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [1233]  4  4  4  4  4  4  3  3  3  3  3  3  3  3  3  3  3  4  6  6  4  7
#> [1255]  7  7  7  6  3  4  9  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1277]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1299]  3  3  3  3  3  3  3  3  3  3  3  4  4  4  4  4  4  4  4 10  4  3
#> [1321]  3  3  5  5  7  4  4  3  3  3  3  3  3  3  5  5  9  6  5  5  5  5
#> [1343]  5  5  5  5  7  6  4  4  7  4  4  7  5  9  9  9  6  6  5  5  6  5
#> [1365]  6  6  6  5  6  4  6  6  6  6  4  5  5  8  7  4  5 15  4  3  3  3
#> [1387]  3  3  3  3  3  5  3  5  5  5  5  4  4  6 15  4  6  5  5  5  5  5
#> [1409]  5  5  5  5  5  3  3  3  3  3  3  8  4  5  5  3  3  3  5  4  5  4
#> [1431]  8  1  4  4  4 12  8  3  3  3  3  3  3  3  6  5  3  5  3  5  5  3
#> [1453]  5  5  5  5  5  5  5  5  5  5 10 10  4  4  4  4  3  3  3  3  3  3
#> [1475]  3  3  3  3  3  3  8  8  5  5  5  5  5  5 13  3  3  3  3  3  3  3
#> [1497]  3  3  3  2  2  3  2  2  2  2 10  5  3  3  3  3  3  3  3  3  3  3
#> [1519]  3  4  4  4  4  4  3  1  7  4  5  3  5  3  5  5  3  5  5  3  5  5
#> [1541]  7  7  4  8  5  5  6  6  6 13  3  3  3  3  3  3  3  3  6  5  4  8
#> [1563]  9  8  8  9  7  8 10  8  6  8  6  6  6  7  6  6  6  6  6  5  5  5
#> [1585]  5  5  5  5  5  7  7  7  7  7  3  3  3  3  3  3  3  3  3  3  3  3
#> [1607] 14 13 10  4  3  8  3  5  4  4  4 18  7  3  3  3  3  3  3  3  3  6
#> [1629]  3  3  3  4  7  3  3  3  6  3  3  7  3  3  3  3  3  3  3  3  3  3
#> [1651]  3  3  5  6  1  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1673]  3  7  4  3  3  3  6  1  3  3  3  2  2  3  3  3  3  5  3  7  5  7
#> [1695]  7  5  6  5  6  5  7  6  5  3  4  9  4  4  3  4  3  4  6  6  3  6
#> [1717]  6  6  3  3  3  3  3  3  4  4  6  3  6 12  3  3  3  3  3  3  6  4
#> [1739]  6  6  6  4  4 12  9  4  4  4  3  3  3  3  3  3  3  3  3  3  3  3
#> [1761]  3  5  4  3  3  3  3  3  4  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1783]  3  3  3  3  3  3  3  3  3  3  3  3  7  3  1  1  1  3  3  3  1  3
#> [1805]  3  3  3  3  5  3  3  4 16  6  6  6  6  6  5  6  6  6  6  6  6  6
#> [1827]  6  6  6  6  6 10  3  4  4  6  6  1  3  3  6  3  4  4  4  4  4  4
#> [1849]  4  4  6  3 10  8  6  3 13  7  6  6  6  6  6  6  6  6  6  6  6  6
#> [1871]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  4  6  6  4  4
#> [1893]  3  6  6  3  3  4  4  3  3  3  3  3  3  3  3  3  7  3  3  3  3  3
#> [1915]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  5  6  5  5  3  5  5  5
#> [1937]  5  5  3  5  5  6  6  6  6  6  6  6  6  6  9  3  3  3  3  3  6  3
#> [1959]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [1981]  3  3  3  4  4  4  4  1  4  6  6  3  9  9  9  3  3  4  5  6  6  6
#> [2003]  6  6  6  6  6  6  6  4  2  2  5  3  3  8  8  8  8  8  8  8  8  8
#> [2025]  8  8  8  3  3  3  3  3  3  3  3  3  3  3  3  8  9  9  9  3  7  2
#> [2047]  2  4  3  4  4  4  4  4  7  7  4  3  3  3  3  3  3  3  3  3  3  3
#> [2069]  3  3  3  3  3  3  3  3  3  3  4  4  4  4  4  4  4  4  4  4  4  4
#> [2091]  4  4  2  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2113]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2135]  3  3  3  3  3  3  3  3  3  3  3  6  6  4  4  4  4  2  3  3  3  3
#> [2157]  3  3  3  3  4  4  7  3  3  3  4 12 10  3  4  7  6 17  7  6  6  6
#> [2179]  6  3  3  3  3  3  3  7  7  7  7  7  7  6  6  6  6  6  7 10 12  3
#> [2201]  5  6  6  4  6  5  4  4  3  3  8  5  2 11 10  9  9 11  8  7  7  7
#> [2223]  9  8  3  3 17  6  6  1  4  8  5  5  5  5  3  3  3  3  3  5  5  3
#> [2245]  5  5  3  3  3  3  3  3  3  3  3  3  3  5  5  5  5  5  5  5  5  5
#> [2267]  5  5  5  5  5  5  5  5  7  7  7  7  7  7  7 13  3  1 16 10  6  7
#> [2289]  3  5  6  4  4  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2311]  3  3  7  3  4  8  3  3  6  3  4  7  8  2 10  6  6  1  1 10  9  9
#> [2333]  9  9  9  4  6  6  6  6  6  6  6  6  6  6  5  3 14  3  3  5  9  6
#> [2355]  6  6  4 12  7  7 11 11  8  6  3  3  3  3  3  3  3  3  3  3  3  3
#> [2377]  3  6  7  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  6  5  4  7
#> [2399]  3  4  4  6  6  6  7  6  7  7  7  7 12 19  3  5  5  5  5  5  5  5
#> [2421]  5  5  3  5  5  3  3  5  5  3  6  6  6  6  6  6  6  6  6  6  6  6
#> [2443]  6  6  6  6  6  6  6  6  2  7  4  5  3  3  3  3  3  3  3  3  3  3
#> [2465]  3  8  6  6  3  7  6  6 10  3  6  6 16  6  6  6  6  6  6 11  3  4
#> [2487]  4  3  3  3  3  3  3  3  8  6  3  3  3  3  6  4  6  6  6  6  6  6
#> [2509]  6  6  6  6  6  6  6  6  3  3  5  7  5  3  3  3  3  3  3  3  3  3
#> [2531]  3  3  3  3  3  3  3  3  3  3  3  9  9  3  9  8  6  3  3  3  3  1
#> [2553]  4  3  4  7  8  6  7  5  6  3  6  6  5  6  6  4 11  3  4  3  3  3
#> [2575]  6 12  4  4  3  3  3  3  3  3  3  6  4  3  3  3  3  3  3  3  3  3
#> [2597]  3  3  3  3  3  3  3  3  3  3  3 10  8  6  4  4  2  3  6  6 17  7
#> [2619]  5  5  3  3  3  3  3  3  3  3  3  3  3  3  3  5  4  6  6  5  6  6
#> [2641]  6  5  3  3  8 10  5  8  6  3  6  4  4  9  6 17  6  5  5  5  5  5
#> [2663]  5  5  5  5  5  5  5  5  4  3  3 11  3  3  3  3  3  3  3  3  3  3
#> [2685]  3  3  3  3  3  3  3  3  3  3  3  3  3  2  3  3  3  3  3  3  3  3
#> [2707]  3  3  5  4  4 16  6  4  6  4  9 11  6  3  3  3  8  8  3  8  8  8
#> [2729]  8  8  6  4  1  6  6  6  6  6  6  6  6  6  6  6  3  9  3  3  3  4
#> [2751]  3  6  6  6  6 10 10  9  3  6  6  4  3  7  4  7  5  5  5  7  5  9
#> [2773]  6 13  4  6  6  6  3  3  6  4  6  5  7 18  3  3  3  3  3  3  3  3
#> [2795]  3  3  4  4 17  5  3  3  3  3  3  3  5  3  3  7  7  7  7  7  6  6
#> [2817]  6  6  1  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2839]  3  6 16  5 19  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [2861]  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [2883]  4  4  4  4 10  5 12 12 12  5 12  6  5  6  6  6  5  6  5  7  4 12
#> [2905]  8 10  3 11  2  6  6  6  6  4  4 11  5  6  1  5  6  6  2 10  4  4
#> [2927]  6  4  6  5  5  5  3  3  3  3  3  3  3  3  3  4  6  3  3  4  4  4
#> [2949]  4  1  5  3  3  6  9  6  6  6  3  3  3  3  3  3  3  3  3  3  3  3
#> [2971]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [2993]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3015]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3037]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3059]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3081]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3  3
#> [3103]  3  3  3  6 12  7  1 13  6  6  6  6  6  4  4  4  4  6  6  5 14  7
#> [3125]  5  4  3  3  3  3  3  4  4  4  4  4  4  1 16 17  6  3  3  5  4  4
#> [3147]  3  3  5  4  3  3 11  5  5  7  6  6  5  5  5  9  5 12  3  6  5  5
#> [3169]  5 11  1  1  5  6  6  3  3  9 10  3  4  3  3  3  3  3  3  3  3  3
#> [3191]  3  3  3  3  3  3  3  3  3  3  3  3  3  3  7  9  3  3  3  3  3  3
#> [3213]  3  3  3  3  3  3  6  7  3  3  3  3  3  3  3  3  3  3  3  3  5  3
#> [3235]  3  3  3  6  5  3  3  3  3  3  3  3  3  3  3  3  3  3  3  5 10  7
#> [3257]  3  3  3  3  3  3  3  3  7  3  4  4  6  6  6  6  6  6  6  7  2  4
#> [3279]  8  3  3  3  3  3  6  1  5  6  6  6  6  6  6  3  7  7  3  3  3  3
#> [3301]  3  3  7  6  8  5  4  4  3  3  3  5  9  9  4  3  9  6  6  4  3  1
#> [3323]  5  5  5  5  5  5  7  1  3  9  3  9 15 15 12  8  5 19  4  4  7  7
#> [3345]  6 17  2  4  5  9  4  5  6  6  6  6  6  6  6  6  6  6  7  7  4  4
#> [3367]  4  6  6  6  6  6  6  6  6  6  3  6  3  5  3  3 16  5  3  8  3  3
#> [3389]  3  3  3  3  3  9  6  7 19  4  6  7  7 10  9  8  7  7  8  5  4 10
#> [3411]  4  3  3  5  4  5  5  6  6 14  7  8  8  8  8  8  8  8  8  8  4  4
#> [3433]  1  3 15  7  4  3  4  4  4  7  4  4 11  6  9  6  4  6  4  3  3  3
#> [3455]  3  3  4  3  4  6 15  7  3  3  3  9  3  3  3  3  3  4  5  5  5  1
#> [3477]  6  3  4  6  6  4  4  6  6  6  6  5  3 16 12  2 11  5  5  3 10 10
#> [3499]  2  3  3  3  5  5  5  5 17  5  8  9 15  3  3  3  6  3  3  3  3  3
#> [3521]  3  8  9  7 19 13  4  4  4 16  8  8 15  9  3  7  7  7  7  1 11 11
#> [3543]  7  3  3  3  4  4  4  4 15 15 15 15  8  8 13  1  4  8  8  7  7  6
#> [3565]  6  6  6  6  6  6  4  4  4  2  3  4  7  5  6  6  8  9  7  2  2  2
#> [3587]  4  3  4  6 10  6  6  6  6  5 10  7 13 11 11  3  5  8  4 15  8 19
#> [3609]  5  8  5  4  4  4  5  5  5  5  7  6  4  6  6  6  6  6  6  6 10  6
#> [3631]  5  5  6  3  3  6 11  4  5  4  4  4  4  5  5  7  4  4  4  4  4  4
#> [3653]  4  4  6  3  2  5 18 18 17  6  8  8  3  3  4  3  3  4  6  6 14  8
#> [3675]  5  7  6  7 12 10  4  6  6  6  8 10  7  4  4  4  4  4  4  8  8  5
#> [3697]  6  9  9  9  5  8  8  3  3  3  3  3  3  3  3  3  3  3  3  3  3  2
#> [3719] 18  5  8 11  4  3  3 11  4  9  9  4  6  9  4  7  4  8  5  6  6  6
#> [3741]  6  6  6  6  6  3  3  7  4  4  4  4  4  1  7  3  3  3  3  3  3  9
#> [3763]  5  4  4  4  4  4  4  4  3 11  8  8  6 10  4 13  3  3 12  4  5  3
#> [3785] 13  3  3  5  7 12  4  4 15  3  4  4  4  4  4  8  8  4  5  5  6  3
#> [3807]  6  6  6  6  5  5  4  6  3  4  6  6  7  4  8  7  7  7  7  7  7  7
#> [3829]  7  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  5  6  6  6  6  6
#> [3851]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3873]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3895]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3917]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [3939]  6  6  6  6  6  6  6  6  6  4  4  4  3  3  3  4  1  3  3  3  6  6
#> [3961]  4 10  9  3  4  3  9  4  8  3  3  3  3  3  3  3  5  2  7  8  3  6
#> [3983]  6  3  3  8  6  7  4  7  7  7 15  7  5  7  3  5  3  6  7  4  4  4
#> [4005]  4  4  4  4  4  8  7  7  7  8  4  4  3  5  6  4  8  4  4  3  8  3
#> [4027]  4  7  3  3  3  5  4  5  3 10  5  7  6  3  3  4  4  4  4  4  5  4
#> [4049]  4  4  6 10  3  6 16  3 15  6  7  4  6 18  4 10  6  3  8 11  3  9
#> [4071] 11  8 16  4  5  6  6  6  5  4  4  6  5  1  6 10 12  9  6  6  3  7
#> [4093]  6  5  7  7  3  3  4  6  3  3  3  3  3  3  3  5  1  5 12 10  3  4
#> [4115]  8 11  8  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4  4
#> [4137]  4  4  4  4  4  4  4  4  8  7  1  7  4  3  3  3  3  5  7  4  6  6
#> [4159]  6  6  6  6  6  6  6  6  4  3  3  5  3  3  3 16 10  3 17  5  5  5
#> [4181]  4  4  4  4  4 10  4  9  9  9  4  5  4  4  8  9  4  1  4  5  5  5
#> [4203]  6  5  5  4  8 10 12  4  9 15  3  4  4  4  4  3  1  3  7  7  7  7
#> [4225]  7  3  3  3  4  4  6  3  3  3  4  3  3  3  9 14  3  1  7  6  6  6
#> [4247]  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6  6
#> [4269]  6  6  6  6  7  6  6  6  6  6  6  6  6  6  6  4

tidy(tate_rec, number = 1)
#> # A tibble: 1 × 3
#>   terms  functions id               
#>   <chr>  <chr>     <chr>            
#> 1 medium NA        textfeature_ahRZP
tidy(tate_obj, number = 1)
#> # A tibble: 27 × 3
#>    terms  functions     id               
#>    <chr>  <chr>         <chr>            
#>  1 medium n_words       textfeature_ahRZP
#>  2 medium n_uq_words    textfeature_ahRZP
#>  3 medium n_charS       textfeature_ahRZP
#>  4 medium n_uq_charS    textfeature_ahRZP
#>  5 medium n_digits      textfeature_ahRZP
#>  6 medium n_hashtags    textfeature_ahRZP
#>  7 medium n_uq_hashtags textfeature_ahRZP
#>  8 medium n_mentions    textfeature_ahRZP
#>  9 medium n_uq_mentions textfeature_ahRZP
#> 10 medium n_commas      textfeature_ahRZP
#> # ℹ 17 more rows

# Using custom extraction functions
nchar_round_10 <- function(x) round(nchar(x) / 10) * 10

recipe(~., data = tate_text) %>%
  step_textfeature(medium,
    extract_functions = list(nchar10 = nchar_round_10)
  ) %>%
  prep() %>%
  bake(new_data = NULL)
#> # A tibble: 4,284 × 5
#>        id artist             title             year textfeature_medium_n…¹
#>     <dbl> <fct>              <fct>            <dbl>                  <dbl>
#>  1  21926 Absalon            Proposals for a…  1990                     60
#>  2  20472 Auerbach, Frank    Michael           1990                     20
#>  3  20474 Auerbach, Frank    Geoffrey          1990                     20
#>  4  20473 Auerbach, Frank    Jake              1990                     20
#>  5  20513 Auerbach, Frank    To the Studios    1990                     20
#>  6  21389 Ayres, OBE Gillian Phaëthon          1990                     20
#>  7 121187 Barlow, Phyllida   Untitled          1990                     20
#>  8  19455 Baselitz, Georg    Green VIII        1990                     20
#>  9  20938 Beattie, Basil     Present Bound     1990                     30
#> 10 105941 Beuys, Joseph      Joseph Beuys: A…  1990                     10
#> # ℹ 4,274 more rows
#> # ℹ abbreviated name: ¹textfeature_medium_nchar10
源代碼:R/textfeature.R

相關用法


注:本文由純淨天空篩選整理自大神的英文原創作品 Calculate Set of Text Features。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。