本文简要介绍python语言中 torchaudio.models.wav2vec2_model
的用法。
用法:
torchaudio.models.wav2vec2_model(extractor_mode: str, extractor_conv_layer_config: Optional[List[Tuple[int, int, int]]], extractor_conv_bias: bool, encoder_embed_dim: int, encoder_projection_dropout: float, encoder_pos_conv_kernel: int, encoder_pos_conv_groups: int, encoder_num_layers: int, encoder_num_heads: int, encoder_attention_dropout: float, encoder_ff_interm_features: int, encoder_ff_interm_dropout: float, encoder_dropout: float, encoder_layer_norm_first: bool, encoder_layer_drop: float, aux_num_out: Optional[int]) → torchaudio.models.Wav2Vec2Model
extractor_mode(str) -
特征提取器的操作模式。有效值为
"group_norm"
或"layer_norm"
。如果"group_norm"
,则在第一个卷积块中应用单个归一化。否则,所有的卷积块都会进行层归一化。此选项对应于
fairseq
中的extractor_mode
。extractor_conv_layer_config(python:integer 元组列表或者None) -
特征提取器中卷积层的配置。卷积配置列表,即
[(output_channel, kernel_size, stride), ...]
如果提供了
None
,则使用以下默认值。[ (512, 10, 5), (512, 3, 2), (512, 3, 2), (512, 3, 2), (512, 3, 2), (512, 2, 2), (512, 2, 2), ]
此选项对应于
fairseq
中的conv_feature_layers
。extractor_conv_bias(bool) -
是否在每个卷积操作中包含偏置项。
此选项对应于
fairseq
中的conv_bias
。encoder_embed_dim(int) -
嵌入编码器的维度。
此选项对应于
fairseq
中的encoder_embed_dim
。encoder_projection_dropout(float) -
将输入特征投影到
encoder_embed_dim
后应用的丢失概率。此选项对应于
fairseq
中的dropout_input
。encoder_pos_conv_kernel(int) -
卷积位置嵌入的内核大小。
此选项对应于
fairseq
中的conv_pos
。encoder_pos_conv_groups(int) -
卷积位置嵌入组的数量。
此选项对应于
fairseq
中的conv_pos_groups
。encoder_num_layers(int) -
Transformer 块中的自注意力层数。
此选项对应于
fairseq
中的encoder_layers
。encoder_num_heads(int) -
自注意力层中的头数。
此选项对应于
fairseq
中的encoder_attention_heads
。encoder_attention_dropout(float) -
self-attention 层中 softmax 之后应用的 dropout 概率。
此选项对应于
fairseq
中的attention_dropout
。encoder_ff_interm_features(int) -
前馈层中隐藏特征的维度。
此选项对应于
fairseq
中的encoder_ffn_embed_dim
。encoder_ff_interm_dropout(float) -
应用于前馈层的辍学概率。
此选项对应于
activation_dropout
中的fairseq
。encoder_dropout(float) -
在前馈层结束时应用的辍学概率。
此选项对应于
fairseq
中的dropout
。encoder_layer_norm_first(bool) -
控制transformer层和每个encoder层中layer norm的顺序。如果为 True,则在转换器层中,在将特征馈送到编码器层之前应用层规范。在编码器层中,在自我注意之前和之后应用了两层规范。如果为 False,则在变换层中,在将特征馈送到编码器层之后应用层规范。在编码器层中,在自我注意之后、前馈之前和之后应用两层规范。
此选项对应于
fairseq
中的layer_norm_first
。encoder_layer_drop(float) -
在训练期间丢弃每个编码器层的概率。
此选项对应于
fairseq
中的layerdrop
。aux_num_out(int或者None) -提供时,在编码器顶部附加一个额外的线性层,可用于fine-tuning。
结果模型。
构建自定义 Wav2Vec2Model
注意
下面的“feature extractor”对应于ConvFeatureExtractionModel在原来的
fairseq
执行。这在本文中称为“(卷积)特征编码器”wav2vec 2.0[5] 纸。下面的 “encoder” 对应于 TransformerEncoder ,在本文中称为 “Transformer”。
参数:
返回:
返回类型:
相关用法
- Python PyTorch wrap_torch_function用法及代码示例
- Python PyTorch wrap用法及代码示例
- Python PyTorch weight_norm用法及代码示例
- Python PyTorch where用法及代码示例
- Python PyTorch frexp用法及代码示例
- Python PyTorch jvp用法及代码示例
- Python PyTorch cholesky用法及代码示例
- Python PyTorch vdot用法及代码示例
- Python PyTorch ELU用法及代码示例
- Python PyTorch ScaledDotProduct.__init__用法及代码示例
- Python PyTorch gumbel_softmax用法及代码示例
- Python PyTorch get_tokenizer用法及代码示例
- Python PyTorch saved_tensors_hooks用法及代码示例
- Python PyTorch positive用法及代码示例
- Python PyTorch renorm用法及代码示例
- Python PyTorch AvgPool2d用法及代码示例
- Python PyTorch MaxUnpool3d用法及代码示例
- Python PyTorch Bernoulli用法及代码示例
- Python PyTorch Tensor.unflatten用法及代码示例
- Python PyTorch Sigmoid用法及代码示例
- Python PyTorch Tensor.register_hook用法及代码示例
- Python PyTorch ShardedEmbeddingBagCollection.named_parameters用法及代码示例
- Python PyTorch sqrt用法及代码示例
- Python PyTorch PackageImporter.id用法及代码示例
- Python PyTorch column_stack用法及代码示例
注:本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torchaudio.models.wav2vec2_model。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。