將標記作為菜譜的字符向量列表返回。此函數對於執行配方構建的診斷很有用,但不應在最終配方步驟中使用。請注意,此函數將 prep() 和 bake() 用作其所使用的配方。
例子
text_tibble <- tibble(text = c("This is words", "They are nice!"))
recipe(~text, data = text_tibble) %>%
step_tokenize(text) %>%
show_tokens(text)
#> [[1]]
#> [1] "this" "is" "words"
#>
#> [[2]]
#> [1] "they" "are" "nice"
#>
library(modeldata)
data(tate_text)
recipe(~., data = tate_text) %>%
step_tokenize(medium) %>%
show_tokens(medium)
#> [[1]]
#> [1] "video" "monitor" "or" "projection" "colour"
#> [6] "and" "sound" "stereo"
#>
#> [[2]]
#> [1] "etching" "on" "paper"
#>
#> [[3]]
#> [1] "etching" "on" "paper"
#>
#> [[4]]
#> [1] "etching" "on" "paper"
#>
#> [[5]]
#> [1] "oil" "paint" "on" "canvas"
#>
#> [[6]]
#> [1] "oil" "paint" "on" "canvas"
#>
相關用法
- R textrecipes step_lemma 標記變量的詞形還原
- R textrecipes step_tokenize_wordpiece 字符變量的Wordpiece標記化
- R textrecipes step_tokenfilter 根據詞頻過濾標記
- R textrecipes step_text_normalization 字符變量的標準化
- R textrecipes step_clean_names 幹淨的變量名稱
- R textrecipes step_tokenize_sentencepiece 字符變量的句子標記化
- R textrecipes step_tokenmerge 將多個令牌變量合並為一個
- R textrecipes step_tf 代幣的使用頻率
- R textrecipes step_tokenize 字符變量的標記化
- R textrecipes step_tfidf 詞頻-令牌的逆文檔頻率
- R textrecipes step_word_embeddings 令牌的預訓練詞嵌入
- R textrecipes step_stem 令牌變量的詞幹
- R textrecipes step_textfeature 計算文本特征集
- R textrecipes step_texthash 代幣的特征哈希
- R textrecipes step_ngram 從標記變量生成 n-gram
- R textrecipes step_stopwords 過濾標記變量的停用詞
- R textrecipes step_pos_filter 令牌變量的語音過濾部分
- R textrecipes step_untokenize 令牌變量的取消令牌化
- R textrecipes step_lda 計算代幣的LDA維度估計
- R textrecipes step_tokenize_bpe 字符變量的 BPE 標記化
- R textrecipes step_clean_levels 清晰的分類級別
- R textrecipes step_sequence_onehot 令牌的位置 One-Hot 編碼
- R textrecipes step_dummy_hash 通過特征哈希的指示變量
- R textrecipes tokenlist 創建令牌對象
- R update_PACKAGES 更新現有的 PACKAGES 文件
注:本文由純淨天空篩選整理自等大神的英文原創作品 Show token output of recipe。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。