当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch numericalize_tokens_from_iterator用法及代码示例


本文简要介绍python语言中 torchtext.data.functional.numericalize_tokens_from_iterator 的用法。

用法:

torchtext.data.functional.numericalize_tokens_from_iterator(vocab, iterator, removed_tokens=None)

参数

  • vocab-词汇表将 token 转换为 id。

  • iterator-迭代器产生一个令牌列表。

  • removed_tokens-从输出数据集中删除标记(默认值:无)

从带有词汇的令牌迭代器中生成 id 列表。

例子

>>> from torchtext.data.functional import simple_space_split
>>> from torchtext.data.functional import numericalize_tokens_from_iterator
>>> vocab = {'Sentencepiece' : 0, 'encode' : 1, 'as' : 2, 'pieces' : 3}
>>> ids_iter = numericalize_tokens_from_iterator(vocab,
>>>                               simple_space_split(["Sentencepiece as pieces",
>>>                                                   "as pieces"]))
>>> for ids in ids_iter:
>>>     print([num for num in ids])
>>> [0, 2, 3]
>>> [2, 3]

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchtext.data.functional.numericalize_tokens_from_iterator。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。