当前位置: 首页>>代码示例 >>用法及示例精选 >>正文


Python PyTorch wav2vec2_model用法及代码示例


本文简要介绍python语言中 torchaudio.models.wav2vec2_model 的用法。

用法:

torchaudio.models.wav2vec2_model(extractor_mode: str, extractor_conv_layer_config: Optional[List[Tuple[int, int, int]]], extractor_conv_bias: bool, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_pos_conv_kernel: int, encoder_pos_conv_groups: int, encoder_num_layers: int, encoder_num_heads: int, encoder_attention_dropout: float, encoder_ff_interm_features: int, encoder_ff_interm_dropout: float, encoder_dropout: float, encoder_layer_norm_first: bool, encoder_layer_drop: float, aux_num_out: Optional[int]) → torchaudio.models.Wav2Vec2Model

参数

  • extractor_mode(str) -

    特征提取器的操作模式。有效值为 "group_norm""layer_norm" 。如果 "group_norm" ,则在第一个卷积块中应用单个归一化。否则,所有的卷积块都会进行层归一化。

    此选项对应于 fairseq 中的 extractor_mode

  • extractor_conv_layer_config(python:integer 元组列表或者None) -

    特征提取器中卷积层的配置。卷积配置列表,即[(output_channel, kernel_size, stride), ...]

    如果提供了None,则使用以下默认值。

    [
      (512, 10, 5),
      (512, 3, 2),
      (512, 3, 2),
      (512, 3, 2),
      (512, 3, 2),
      (512, 2, 2),
      (512, 2, 2),
    ]

    此选项对应于 fairseq 中的 conv_feature_layers

  • extractor_conv_bias(bool) -

    是否在每个卷积操作中包含偏置项。

    此选项对应于 fairseq 中的 conv_bias

  • encoder_embed_dim(int) -

    嵌入编码器的维度。

    此选项对应于 fairseq 中的 encoder_embed_dim

  • encoder_projection_dropout(float) -

    将输入特征投影到 encoder_embed_dim 后应用的丢失概率。

    此选项对应于 fairseq 中的 dropout_input

  • encoder_pos_conv_kernel(int) -

    卷积位置嵌入的内核大小。

    此选项对应于 fairseq 中的 conv_pos

  • encoder_pos_conv_groups(int) -

    卷积位置嵌入组的数量。

    此选项对应于 fairseq 中的 conv_pos_groups

  • encoder_num_layers(int) -

    Transformer 块中的自注意力层数。

    此选项对应于 fairseq 中的 encoder_layers

  • encoder_num_heads(int) -

    自注意力层中的头数。

    此选项对应于 fairseq 中的 encoder_attention_heads

  • encoder_attention_dropout(float) -

    self-attention 层中 softmax 之后应用的 dropout 概率。

    此选项对应于 fairseq 中的 attention_dropout

  • encoder_ff_interm_features(int) -

    前馈层中隐藏特征的维度。

    此选项对应于 fairseq 中的 encoder_ffn_embed_dim

  • encoder_ff_interm_dropout(float) -

    应用于前馈层的辍学概率。

    此选项对应于 activation_dropout 中的 fairseq

  • encoder_dropout(float) -

    在前馈层结束时应用的辍学概率。

    此选项对应于 fairseq 中的 dropout

  • encoder_layer_norm_first(bool) -

    控制transformer层和每个encoder层中layer norm的顺序。如果为 True,则在转换器层中,在将特征馈送到编码器层之前应用层规范。在编码器层中,在自我注意之前和之后应用了两层规范。如果为 False,则在变换层中,在将特征馈送到编码器层之后应用层规范。在编码器层中,在自我注意之后、前馈之前和之后应用两层规范。

    此选项对应于 fairseq 中的 layer_norm_first

  • encoder_layer_drop(float) -

    在训练期间丢弃每个编码器层的概率。

    此选项对应于 fairseq 中的 layerdrop

  • aux_num_out(int或者None) -提供时,在编码器顶部附加一个额外的线性层,可用于fine-tuning。

返回

结果模型。

返回类型

Wav2Vec2模型

构建自定义 Wav2Vec2Model

注意

下面的“feature extractor”对应于ConvFeatureExtractionModel在原来的fairseq执行。这在本文中称为“(卷积)特征编码器”wav2vec 2.0[5] 纸。

下面的 “encoder” 对应于 TransformerEncoder ,在本文中称为 “Transformer”。

相关用法


注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchaudio.models.wav2vec2_model。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。