當前位置: 首頁>>代碼示例 >>用法及示例精選 >>正文


Python PyTorch numericalize_tokens_from_iterator用法及代碼示例


本文簡要介紹python語言中 torchtext.data.functional.numericalize_tokens_from_iterator 的用法。

用法:

torchtext.data.functional.numericalize_tokens_from_iterator(vocab, iterator, removed_tokens=None)

參數

  • vocab-詞匯表將 token 轉換為 id。

  • iterator-迭代器產生一個令牌列表。

  • removed_tokens-從輸出數據集中刪除標記(默認值:無)

從帶有詞匯的令牌迭代器中生成 id 列表。

例子

>>> from torchtext.data.functional import simple_space_split
>>> from torchtext.data.functional import numericalize_tokens_from_iterator
>>> vocab = {'Sentencepiece' : 0, 'encode' : 1, 'as' : 2, 'pieces' : 3}
>>> ids_iter = numericalize_tokens_from_iterator(vocab,
>>>                               simple_space_split(["Sentencepiece as pieces",
>>>                                                   "as pieces"]))
>>> for ids in ids_iter:
>>>     print([num for num in ids])
>>> [0, 2, 3]
>>> [2, 3]

相關用法


注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torchtext.data.functional.numericalize_tokens_from_iterator。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。