Python PyTorch get_tokenizer用法及代码示例

本文简要介绍python语言中 torchtext.data.utils.get_tokenizer 的用法。

用法: torchtext.data.utils.get_tokenizer(tokenizer, language='en')

参数：

tokenizer-标记器函数的名称。如果为 None，则返回 split() 函数，该函数将字符串句子按空格分割。如果是basic_english，则返回_basic_english_normalize()函数，该函数首先对字符串进行归一化，然后用空格分割。如果是可调用函数，它将返回该函数。如果是分词器库(例如 spacy、moses、toktok、revtok、subword)，它会返回相应的库。
language-默认 en

为字符串句子生成分词器函数。

例子

>>> import torchtext
>>> from torchtext.data import get_tokenizer
>>> tokenizer = get_tokenizer("basic_english")
>>> tokens = tokenizer("You can now install TorchText using pip!")
>>> tokens
>>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']

相关用法

注：本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchtext.data.utils.get_tokenizer。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。