当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


R textrecipes step_tokenmerge 将多个令牌变量合并为一个


step_tokenmerge() 创建配方步骤的规范,该步骤将采用多个 token 变量并将它们组合成一个 token 变量。

用法

step_tokenmerge(
  recipe,
  ...,
  role = "predictor",
  trained = FALSE,
  columns = NULL,
  prefix = "tokenmerge",
  keep_original_cols = FALSE,
  skip = FALSE,
  id = rand_id("tokenmerge")
)

参数

recipe

一个recipe 对象。该步骤将添加到此配方的操作序列中。

...

一个或多个选择器函数用于选择受该步骤影响的变量。有关更多详细信息,请参阅recipes::selections()

role

对于此步骤创建的模型项,应为它们分配什么分析角色?默认情况下,该函数假定由原始变量创建的新列将用作模型中的预测变量。

trained

指示预处理数量是否已估计的逻辑。

columns

将由 terms 参数(最终)填充的变量名称字符串。在 recipes::prep.recipe() 训练该步骤之前,这是 NULL

prefix

生成的列名称的前缀,默认为"tokenmerge"。

keep_original_cols

将原始变量保留在输出中的逻辑。默认为 FALSE

skip

一个合乎逻辑的。当recipes::bake.recipe() 烘焙食谱时是否应该跳过此步骤?虽然所有操作都是在 recipes::prep.recipe() 运行时烘焙的,但某些操作可能无法对新数据进行(例如处理结果变量)。使用 skip = FALSE 时应小心。

id

该步骤特有的字符串,用于标识它。

recipe 的更新版本,其中新步骤添加到现有步骤(如果有)的序列中。

整理

当您tidy()这一步时,会出现一个带有列terms(选择的选择器或变量)的tibble。

箱重

底层操作不允许使用案例权重。

也可以看看

step_tokenize() 将字符转换为tokens

令牌修改的其他步骤: step_lemma()step_ngram()step_pos_filter()step_stem()step_stopwords()step_tokenfilter()

例子

library(recipes)
library(modeldata)
data(tate_text)

tate_rec <- recipe(~., data = tate_text) %>%
  step_tokenize(medium, artist) %>%
  step_tokenmerge(medium, artist)

tate_obj <- tate_rec %>%
  prep()

bake(tate_obj, new_data = NULL)
#> # A tibble: 4,284 × 4
#>        id title                                            year tokenmerge
#>     <dbl> <fct>                                           <dbl>  <tknlist>
#>  1  21926 Proposals for a Habitat                          1990 [9 tokens]
#>  2  20472 Michael                                          1990 [5 tokens]
#>  3  20474 Geoffrey                                         1990 [5 tokens]
#>  4  20473 Jake                                             1990 [5 tokens]
#>  5  20513 To the Studios                                   1990 [6 tokens]
#>  6  21389 Phaëthon                                         1990 [7 tokens]
#>  7 121187 Untitled                                         1990 [6 tokens]
#>  8  19455 Green VIII                                       1990 [5 tokens]
#>  9  20938 Present Bound                                    1990 [8 tokens]
#> 10 105941 Joseph Beuys: A Private Collection. A11 Artfor…  1990 [5 tokens]
#> # ℹ 4,274 more rows

tidy(tate_rec, number = 2)
#> # A tibble: 2 × 2
#>   terms  id              
#>   <chr>  <chr>           
#> 1 medium tokenmerge_b2ro9
#> 2 artist tokenmerge_b2ro9
tidy(tate_obj, number = 2)
#> # A tibble: 2 × 2
#>   terms  id              
#>   <chr>  <chr>           
#> 1 medium tokenmerge_b2ro9
#> 2 artist tokenmerge_b2ro9
源代码:R/tokenmerge.R

相关用法


注:本文由纯净天空筛选整理自大神的英文原创作品 Combine Multiple Token Variables Into One。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。