将标记作为菜谱的字符向量列表返回。此函数对于执行配方构建的诊断很有用,但不应在最终配方步骤中使用。请注意,此函数将 prep() 和 bake() 用作其所使用的配方。
例子
text_tibble <- tibble(text = c("This is words", "They are nice!"))
recipe(~text, data = text_tibble) %>%
step_tokenize(text) %>%
show_tokens(text)
#> [[1]]
#> [1] "this" "is" "words"
#>
#> [[2]]
#> [1] "they" "are" "nice"
#>
library(modeldata)
data(tate_text)
recipe(~., data = tate_text) %>%
step_tokenize(medium) %>%
show_tokens(medium)
#> [[1]]
#> [1] "video" "monitor" "or" "projection" "colour"
#> [6] "and" "sound" "stereo"
#>
#> [[2]]
#> [1] "etching" "on" "paper"
#>
#> [[3]]
#> [1] "etching" "on" "paper"
#>
#> [[4]]
#> [1] "etching" "on" "paper"
#>
#> [[5]]
#> [1] "oil" "paint" "on" "canvas"
#>
#> [[6]]
#> [1] "oil" "paint" "on" "canvas"
#>
相关用法
- R textrecipes step_lemma 标记变量的词形还原
- R textrecipes step_tokenize_wordpiece 字符变量的Wordpiece标记化
- R textrecipes step_tokenfilter 根据词频过滤标记
- R textrecipes step_text_normalization 字符变量的标准化
- R textrecipes step_clean_names 干净的变量名称
- R textrecipes step_tokenize_sentencepiece 字符变量的句子标记化
- R textrecipes step_tokenmerge 将多个令牌变量合并为一个
- R textrecipes step_tf 代币的使用频率
- R textrecipes step_tokenize 字符变量的标记化
- R textrecipes step_tfidf 词频-令牌的逆文档频率
- R textrecipes step_word_embeddings 令牌的预训练词嵌入
- R textrecipes step_stem 令牌变量的词干
- R textrecipes step_textfeature 计算文本特征集
- R textrecipes step_texthash 代币的特征哈希
- R textrecipes step_ngram 从标记变量生成 n-gram
- R textrecipes step_stopwords 过滤标记变量的停用词
- R textrecipes step_pos_filter 令牌变量的语音过滤部分
- R textrecipes step_untokenize 令牌变量的取消令牌化
- R textrecipes step_lda 计算代币的LDA维度估计
- R textrecipes step_tokenize_bpe 字符变量的 BPE 标记化
- R textrecipes step_clean_levels 清晰的分类级别
- R textrecipes step_sequence_onehot 令牌的位置 One-Hot 编码
- R textrecipes step_dummy_hash 通过特征哈希的指示变量
- R textrecipes tokenlist 创建令牌对象
- R update_PACKAGES 更新现有的 PACKAGES 文件
注:本文由纯净天空筛选整理自等大神的英文原创作品 Show token output of recipe。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。