当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch generate_sp_model用法及代码示例


本文简要介绍python语言中 torchtext.data.functional.generate_sp_model 的用法。

用法:

torchtext.data.functional.generate_sp_model(filename, vocab_size=20000, model_type='unigram', model_prefix='m_user')

参数

  • filename-用于训练SentencePiece模型的数据文件。

  • vocab_size-词汇量的大小(默认值:20,000)。

  • model_type-SentencePiece模型的类型,包括unigram、bpe、char、word。

  • model_prefix-文件保存模型和词汇的前缀。

训练 SentencePiece 分词器。

输出:
模型和词汇保存在两个单独的文件中

model_prefix。

例子

>>> from torchtext.data.functional import generate_sp_model
>>> generate_sp_model('test.csv', vocab_size=23456, model_prefix='spm_user')

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchtext.data.functional.generate_sp_model。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。