當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


R textrecipes step_tokenmerge 將多個令牌變量合並為一個


step_tokenmerge() 創建配方步驟的規範,該步驟將采用多個 token 變量並將它們組合成一個 token 變量。

用法

step_tokenmerge(
  recipe,
  ...,
  role = "predictor",
  trained = FALSE,
  columns = NULL,
  prefix = "tokenmerge",
  keep_original_cols = FALSE,
  skip = FALSE,
  id = rand_id("tokenmerge")
)

參數

recipe

一個recipe 對象。該步驟將添加到此配方的操作序列中。

...

一個或多個選擇器函數用於選擇受該步驟影響的變量。有關更多詳細信息,請參閱recipes::selections()

role

對於此步驟創建的模型項,應為它們分配什麽分析角色?默認情況下,該函數假定由原始變量創建的新列將用作模型中的預測變量。

trained

指示預處理數量是否已估計的邏輯。

columns

將由 terms 參數(最終)填充的變量名稱字符串。在 recipes::prep.recipe() 訓練該步驟之前,這是 NULL

prefix

生成的列名稱的前綴,默認為"tokenmerge"。

keep_original_cols

將原始變量保留在輸出中的邏輯。默認為 FALSE

skip

一個合乎邏輯的。當recipes::bake.recipe() 烘焙食譜時是否應該跳過此步驟?雖然所有操作都是在 recipes::prep.recipe() 運行時烘焙的,但某些操作可能無法對新數據進行(例如處理結果變量)。使用 skip = FALSE 時應小心。

id

該步驟特有的字符串,用於標識它。

recipe 的更新版本,其中新步驟添加到現有步驟(如果有)的序列中。

整理

當您tidy()這一步時,會出現一個帶有列terms(選擇的選擇器或變量)的tibble。

箱重

底層操作不允許使用案例權重。

也可以看看

step_tokenize() 將字符轉換為tokens

令牌修改的其他步驟: step_lemma()step_ngram()step_pos_filter()step_stem()step_stopwords()step_tokenfilter()

例子

library(recipes)
library(modeldata)
data(tate_text)

tate_rec <- recipe(~., data = tate_text) %>%
  step_tokenize(medium, artist) %>%
  step_tokenmerge(medium, artist)

tate_obj <- tate_rec %>%
  prep()

bake(tate_obj, new_data = NULL)
#> # A tibble: 4,284 × 4
#>        id title                                            year tokenmerge
#>     <dbl> <fct>                                           <dbl>  <tknlist>
#>  1  21926 Proposals for a Habitat                          1990 [9 tokens]
#>  2  20472 Michael                                          1990 [5 tokens]
#>  3  20474 Geoffrey                                         1990 [5 tokens]
#>  4  20473 Jake                                             1990 [5 tokens]
#>  5  20513 To the Studios                                   1990 [6 tokens]
#>  6  21389 Phaëthon                                         1990 [7 tokens]
#>  7 121187 Untitled                                         1990 [6 tokens]
#>  8  19455 Green VIII                                       1990 [5 tokens]
#>  9  20938 Present Bound                                    1990 [8 tokens]
#> 10 105941 Joseph Beuys: A Private Collection. A11 Artfor…  1990 [5 tokens]
#> # ℹ 4,274 more rows

tidy(tate_rec, number = 2)
#> # A tibble: 2 × 2
#>   terms  id              
#>   <chr>  <chr>           
#> 1 medium tokenmerge_b2ro9
#> 2 artist tokenmerge_b2ro9
tidy(tate_obj, number = 2)
#> # A tibble: 2 × 2
#>   terms  id              
#>   <chr>  <chr>           
#> 1 medium tokenmerge_b2ro9
#> 2 artist tokenmerge_b2ro9
源代碼:R/tokenmerge.R

相關用法


注:本文由純淨天空篩選整理自大神的英文原創作品 Combine Multiple Token Variables Into One。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。