Python PyTorch sentencepiece_tokenizer用法及代碼示例

本文簡要介紹python語言中 torchtext.data.functional.sentencepiece_tokenizer 的用法。

用法: torchtext.data.functional.sentencepiece_tokenizer(sp_model)

參數：

sp_model-SentencePiece 模型。

將文本句子標記為的句子模型: 令牌上的生成器。

輸出：

輸出：一個生成器，輸入為文本句子，輸出為: 基於SentencePiece模型的相應令牌。

例子

>>> from torchtext.data.functional import sentencepiece_tokenizer
>>> sp_tokens_generator = sentencepiece_tokenizer(sp_model)
>>> list_a = ["sentencepiece encode as pieces", "examples to   try!"]
>>> list(sp_tokens_generator(list_a))
    [['_sentence', 'piece', '_en', 'co', 'de', '_as', '_pieces'],
     ['_example', 's', '_to', '_try', '!']]

相關用法

注：本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torchtext.data.functional.sentencepiece_tokenizer。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。