本文簡要介紹python語言中 torchaudio.models.wav2vec2_model
的用法。
用法:
torchaudio.models.wav2vec2_model(extractor_mode: str, extractor_conv_layer_config: Optional[List[Tuple[int, int, int]]], extractor_conv_bias: bool, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_pos_conv_kernel: int, encoder_pos_conv_groups: int, encoder_num_layers: int, encoder_num_heads: int, encoder_attention_dropout: float, encoder_ff_interm_features: int, encoder_ff_interm_dropout: float, encoder_dropout: float, encoder_layer_norm_first: bool, encoder_layer_drop: float, aux_num_out: Optional[int]) → torchaudio.models.Wav2Vec2Model
extractor_mode(str) -
特征提取器的操作模式。有效值為
"group_norm"
或"layer_norm"
。如果"group_norm"
,則在第一個卷積塊中應用單個歸一化。否則,所有的卷積塊都會進行層歸一化。此選項對應於
fairseq
中的extractor_mode
。extractor_conv_layer_config(python:integer 元組列表或者None) -
特征提取器中卷積層的配置。卷積配置列表,即
[(output_channel, kernel_size, stride), ...]
如果提供了
None
,則使用以下默認值。[ (512, 10, 5), (512, 3, 2), (512, 3, 2), (512, 3, 2), (512, 3, 2), (512, 2, 2), (512, 2, 2), ]
此選項對應於
fairseq
中的conv_feature_layers
。extractor_conv_bias(bool) -
是否在每個卷積操作中包含偏置項。
此選項對應於
fairseq
中的conv_bias
。encoder_embed_dim(int) -
嵌入編碼器的維度。
此選項對應於
fairseq
中的encoder_embed_dim
。encoder_projection_dropout(float) -
將輸入特征投影到
encoder_embed_dim
後應用的丟失概率。此選項對應於
fairseq
中的dropout_input
。encoder_pos_conv_kernel(int) -
卷積位置嵌入的內核大小。
此選項對應於
fairseq
中的conv_pos
。encoder_pos_conv_groups(int) -
卷積位置嵌入組的數量。
此選項對應於
fairseq
中的conv_pos_groups
。encoder_num_layers(int) -
Transformer 塊中的自注意力層數。
此選項對應於
fairseq
中的encoder_layers
。encoder_num_heads(int) -
自注意力層中的頭數。
此選項對應於
fairseq
中的encoder_attention_heads
。encoder_attention_dropout(float) -
self-attention 層中 softmax 之後應用的 dropout 概率。
此選項對應於
fairseq
中的attention_dropout
。encoder_ff_interm_features(int) -
前饋層中隱藏特征的維度。
此選項對應於
fairseq
中的encoder_ffn_embed_dim
。encoder_ff_interm_dropout(float) -
應用於前饋層的輟學概率。
此選項對應於
activation_dropout
中的fairseq
。encoder_dropout(float) -
在前饋層結束時應用的輟學概率。
此選項對應於
fairseq
中的dropout
。encoder_layer_norm_first(bool) -
控製transformer層和每個encoder層中layer norm的順序。如果為 True,則在轉換器層中,在將特征饋送到編碼器層之前應用層規範。在編碼器層中,在自我注意之前和之後應用了兩層規範。如果為 False,則在變換層中,在將特征饋送到編碼器層之後應用層規範。在編碼器層中,在自我注意之後、前饋之前和之後應用兩層規範。
此選項對應於
fairseq
中的layer_norm_first
。encoder_layer_drop(float) -
在訓練期間丟棄每個編碼器層的概率。
此選項對應於
fairseq
中的layerdrop
。aux_num_out(int或者None) -提供時,在編碼器頂部附加一個額外的線性層,可用於fine-tuning。
結果模型。
構建自定義 Wav2Vec2Model
注意
下麵的“feature extractor”對應於ConvFeatureExtractionModel在原來的
fairseq
執行。這在本文中稱為“(卷積)特征編碼器”wav2vec 2.0[5] 紙。下麵的 “encoder” 對應於 TransformerEncoder ,在本文中稱為 “Transformer”。
參數:
返回:
返回類型:
相關用法
- Python PyTorch wrap_torch_function用法及代碼示例
- Python PyTorch wrap用法及代碼示例
- Python PyTorch weight_norm用法及代碼示例
- Python PyTorch where用法及代碼示例
- Python PyTorch frexp用法及代碼示例
- Python PyTorch jvp用法及代碼示例
- Python PyTorch cholesky用法及代碼示例
- Python PyTorch vdot用法及代碼示例
- Python PyTorch ELU用法及代碼示例
- Python PyTorch ScaledDotProduct.__init__用法及代碼示例
- Python PyTorch gumbel_softmax用法及代碼示例
- Python PyTorch get_tokenizer用法及代碼示例
- Python PyTorch saved_tensors_hooks用法及代碼示例
- Python PyTorch positive用法及代碼示例
- Python PyTorch renorm用法及代碼示例
- Python PyTorch AvgPool2d用法及代碼示例
- Python PyTorch MaxUnpool3d用法及代碼示例
- Python PyTorch Bernoulli用法及代碼示例
- Python PyTorch Tensor.unflatten用法及代碼示例
- Python PyTorch Sigmoid用法及代碼示例
- Python PyTorch Tensor.register_hook用法及代碼示例
- Python PyTorch ShardedEmbeddingBagCollection.named_parameters用法及代碼示例
- Python PyTorch sqrt用法及代碼示例
- Python PyTorch PackageImporter.id用法及代碼示例
- Python PyTorch column_stack用法及代碼示例
注:本文由純淨天空篩選整理自pytorch.org大神的英文原創作品 torchaudio.models.wav2vec2_model。非經特殊聲明,原始代碼版權歸原作者所有,本譯文未經允許或授權,請勿轉載或複製。