當前位置: 首頁>>編程示例 >>用法及示例精選 >>正文


Python PyTorch wav2vec2_model用法及代碼示例

本文簡要介紹python語言中 torchaudio.models.wav2vec2_model 的用法。

用法:

torchaudio.models.wav2vec2_model(extractor_mode: str, extractor_conv_layer_config: Optional[List[Tuple[int, int, int]]], extractor_conv_bias: bool, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_pos_conv_kernel: int, encoder_pos_conv_groups: int, encoder_num_layers: int, encoder_num_heads: int, encoder_attention_dropout: float, encoder_ff_interm_features: int, encoder_ff_interm_dropout: float, encoder_dropout: float, encoder_layer_norm_first: bool, encoder_layer_drop: float, aux_num_out: Optional[int]) → torchaudio.models.Wav2Vec2Model

參數

  • extractor_mode(str) -

    特征提取器的操作模式。有效值為 "group_norm""layer_norm" 。如果 "group_norm" ,則在第一個卷積塊中應用單個歸一化。否則,所有的卷積塊都會進行層歸一化。

    此選項對應於 fairseq 中的 extractor_mode

  • extractor_conv_layer_config(python:integer 元組列表或者None) -

    特征提取器中卷積層的配置。卷積配置列表,即[(output_channel, kernel_size, stride), ...]

    如果提供了None,則使用以下默認值。

    [
      (512, 10, 5),
      (512, 3, 2),
      (512, 3, 2),
      (512, 3, 2),
      (512, 3, 2),
      (512, 2, 2),
      (512, 2, 2),
    ]

    此選項對應於 fairseq 中的 conv_feature_layers

  • extractor_conv_bias(bool) -

    是否在每個卷積操作中包含偏置項。

    此選項對應於 fairseq 中的 conv_bias

  • encoder_embed_dim(int) -

    嵌入編碼器的維度。

    此選項對應於 fairseq 中的 encoder_embed_dim

  • encoder_projection_dropout(float) -

    將輸入特征投影到 encoder_embed_dim 後應用的丟失概率。

    此選項對應於 fairseq 中的 dropout_input

  • encoder_pos_conv_kernel(int) -

    卷積位置嵌入的內核大小。

    此選項對應於 fairseq 中的 conv_pos

  • encoder_pos_conv_groups(int) -

    卷積位置嵌入組的數量。

    此選項對應於 fairseq 中的 conv_pos_groups

  • encoder_num_layers(int) -

    Transformer 塊中的自注意力層數。

    此選項對應於 fairseq 中的 encoder_layers

  • encoder_num_heads(int) -

    自注意力層中的頭數。

    此選項對應於 fairseq 中的 encoder_attention_heads

  • encoder_attention_dropout(float) -

    self-attention 層中 softmax 之後應用的 dropout 概率。

    此選項對應於 fairseq 中的 attention_dropout

  • encoder_ff_interm_features(int) -

    前饋層中隱藏特征的維度。

    此選項對應於 fairseq 中的 encoder_ffn_embed_dim

  • encoder_ff_interm_dropout(float) -

    應用於前饋層的輟學概率。

    此選項對應於 activation_dropout 中的 fairseq

  • encoder_dropout(float) -

    在前饋層結束時應用的輟學概率。

    此選項對應於 fairseq 中的 dropout

  • encoder_layer_norm_first(bool) -

    控製transformer層和每個encoder層中layer norm的順序。如果為 True,則在轉換器層中,在將特征饋送到編碼器層之前應用層規範。在編碼器層中,在自我注意之前和之後應用了兩層規範。如果為 False,則在變換層中,在將特征饋送到編碼器層之後應用層規範。在編碼器層中,在自我注意之後、前饋之前和之後應用兩層規範。

    此選項對應於 fairseq 中的 layer_norm_first

  • encoder_layer_drop(float) -

    在訓練期間丟棄每個編碼器層的概率。

    此選項對應於 fairseq 中的 layerdrop

  • aux_num_out(int或者None) -提供時,在編碼器頂部附加一個額外的線性層,可用於fine-tuning。

返回

結果模型。

返回類型

Wav2Vec2模型

構建自定義 Wav2Vec2Model

注意

下麵的“feature extractor”對應於ConvFeatureExtractionModel在原來的fairseq執行。這在本文中稱為“(卷積)特征編碼器”wav2vec 2.0[5] 紙。

下麵的 “encoder” 對應於 TransformerEncoder ,在本文中稱為 “Transformer”。

相關用法


注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torchaudio.models.wav2vec2_model。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。