本文簡要介紹python語言中 torchtext.data.utils.get_tokenizer
的用法。
用法:
torchtext.data.utils.get_tokenizer(tokenizer, language='en')
tokenizer-標記器函數的名稱。如果為 None,則返回 split() 函數,該函數將字符串句子按空格分割。如果是basic_english,則返回_basic_english_normalize()函數,該函數首先對字符串進行歸一化,然後用空格分割。如果是可調用函數,它將返回該函數。如果是分詞器庫(例如 spacy、moses、toktok、revtok、subword),它會返回相應的庫。
language-默認 en
為字符串句子生成分詞器函數。
例子
>>> import torchtext >>> from torchtext.data import get_tokenizer >>> tokenizer = get_tokenizer("basic_english") >>> tokens = tokenizer("You can now install TorchText using pip!") >>> tokens >>> ['you', 'can', 'now', 'install', 'torchtext', 'using', 'pip', '!']
參數:
相關用法
- Python PyTorch get_testing_overrides用法及代碼示例
- Python PyTorch get_gradients用法及代碼示例
- Python PyTorch get_ignored_functions用法及代碼示例
- Python PyTorch get_default_dtype用法及代碼示例
- Python PyTorch get_graph_node_names用法及代碼示例
- Python PyTorch generate_sp_model用法及代碼示例
- Python PyTorch ge用法及代碼示例
- Python PyTorch gumbel_softmax用法及代碼示例
- Python PyTorch gammainc用法及代碼示例
- Python PyTorch gradient用法及代碼示例
- Python PyTorch gammaincc用法及代碼示例
- Python PyTorch global_unstructured用法及代碼示例
- Python PyTorch greedy_partition用法及代碼示例
- Python PyTorch gammaln用法及代碼示例
- Python PyTorch gt用法及代碼示例
- Python PyTorch gather用法及代碼示例
- Python PyTorch gcd用法及代碼示例
- Python PyTorch gather_object用法及代碼示例
- Python PyTorch frexp用法及代碼示例
- Python PyTorch jvp用法及代碼示例
- Python PyTorch cholesky用法及代碼示例
- Python PyTorch vdot用法及代碼示例
- Python PyTorch ELU用法及代碼示例
- Python PyTorch ScaledDotProduct.__init__用法及代碼示例
- Python PyTorch saved_tensors_hooks用法及代碼示例
注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torchtext.data.utils.get_tokenizer。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。