Python PyTorch get_tokenizer用法及代碼示例

本文簡要介紹python語言中 torchtext.data.utils.get_tokenizer 的用法。

用法: torchtext.data.utils.get_tokenizer(tokenizer, language='en')

參數：

tokenizer-標記器函數的名稱。如果為 None，則返回 split() 函數，該函數將字符串句子按空格分割。如果是basic_english，則返回_basic_english_normalize()函數，該函數首先對字符串進行歸一化，然後用空格分割。如果是可調用函數，它將返回該函數。如果是分詞器庫(例如 spacy、moses、toktok、revtok、subword)，它會返回相應的庫。
language-默認 en

為字符串句子生成分詞器函數。

例子

>>> import torchtext
>>> from torchtext.data import get_tokenizer
>>> tokenizer = get_tokenizer("basic_english")
>>> tokens = tokenizer("You can now install TorchText using pip!")
>>> tokens
>>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']

相關用法

注：本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torchtext.data.utils.get_tokenizer。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。