Python PyTorch Embedding用法及代码示例

本文简要介绍python语言中 torch.nn.Embedding 的用法。

用法: class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None, device=None, dtype=None)

参数：

num_embeddings(int) -嵌入字典的大小
embedding_dim(int) -每个嵌入向量的大小
padding_idx(int,可选的) -如果指定，padding_idx 处的条目不会影响梯度；因此，padding_idx 处的嵌入向量在训练期间不会更新，即它保持为固定的 “pad”。对于新构建的嵌入，padding_idx 处的嵌入向量将默认为全零，但可以更新为另一个值以用作填充向量。
max_norm(float,可选的) -如果给定，则范数大于 max_norm 的每个嵌入向量被重新规范化为具有范数 max_norm 。
norm_type(float,可选的) -p-norm 的 p 为 max_norm 选项计算。默认 2 。
scale_grad_by_freq(布尔值,可选的) -如果给定，这将通过小批量中单词频率的倒数来缩放梯度。默认 False 。
sparse(bool,可选的) -如果 True ，梯度 w.r.t. weight 矩阵将是一个稀疏张量。有关稀疏渐变的更多详细信息，请参阅注释。

变量：

~Embedding.weight(Tensor) -从 \mathcal{N}(0, 1) 初始化的形状模块 (num_embeddings, embedding_dim) 的可学习权重

一个简单的查找表，用于存储固定字典和大小的嵌入。

该模块通常用于存储词嵌入并使用索引检索它们。模块的输入是索引列表，输出是相应的词嵌入。

形状：

输入：(*)、IntTensor 或 LongTensor 任意形状，包含要提取的索引
输出：(*, H)，其中 * 是输入形状，H=\text{embedding\_dim}

注意

请记住，只有有限数量的优化器支持稀疏梯度：目前是 optim.SGD(CUDA 和 CPU)、optim.SparseAdam(CUDA 和 CPU)和 optim.Adagrad(CPU)

注意

当max_norm不是None时，Embedding的forward方法将就地修改weight张量。由于梯度计算所需的张量无法就地修改，因此在调用 Embedding 的前向方法之前对 Embedding.weight 执行可微分操作需要在 max_norm 不是 None 时克隆 Embedding.weight 。例如：

n, d, m = 3, 5, 7
embedding = nn.Embedding(n, d, max_norm=True)
W = torch.randn((m, d), requires_grad=True)
idx = torch.tensor([1, 2])
a = embedding.weight.clone() @ W.t()  # weight must be cloned for this to be differentiable
b = embedding(idx) @ W.t()  # modifies weight in-place
out = (a.unsqueeze(0) + b.unsqueeze(1))
loss = out.sigmoid().prod()
loss.backward()

例子：

>>> # an Embedding module containing 10 tensors of size 3
>>> embedding = nn.Embedding(10, 3)
>>> # a batch of 2 samples of 4 indices each
>>> input = torch.LongTensor([[1,2,4,5],[4,3,2,9]])
>>> embedding(input)
tensor([[[-0.0251, -1.6902,  0.7172],
         [-0.6431,  0.0748,  0.6969],
         [ 1.4970,  1.3448, -0.9685],
         [-0.3677, -2.7265, -0.1685]],

        [[ 1.4970,  1.3448, -0.9685],
         [ 0.4362, -0.4004,  0.9400],
         [-0.6431,  0.0748,  0.6969],
         [ 0.9124, -2.3616,  1.1151]]])


>>> # example with padding_idx
>>> embedding = nn.Embedding(10, 3, padding_idx=0)
>>> input = torch.LongTensor([[0,2,0,5]])
>>> embedding(input)
tensor([[[ 0.0000,  0.0000,  0.0000],
         [ 0.1535, -2.0309,  0.9315],
         [ 0.0000,  0.0000,  0.0000],
         [-0.1655,  0.9897,  0.0635]]])

>>> # example of changing `pad` vector
>>> padding_idx = 0
>>> embedding = nn.Embedding(3, 3, padding_idx=padding_idx)
>>> embedding.weight
Parameter containing:
tensor([[ 0.0000,  0.0000,  0.0000],
        [-0.7895, -0.7089, -0.0364],
        [ 0.6778,  0.5803,  0.2678]], requires_grad=True)
>>> with torch.no_grad():
...     embedding.weight[padding_idx] = torch.ones(3)
>>> embedding.weight
Parameter containing:
tensor([[ 1.0000,  1.0000,  1.0000],
        [-0.7895, -0.7089, -0.0364],
        [ 0.6778,  0.5803,  0.2678]], requires_grad=True)

相关用法

注：本文由纯净天空筛选整理自pytorch.org大神的英文原创作品 torch.nn.Embedding。非经特殊声明，原始代码版权归原作者所有，本译文未经允许或授权，请勿转载或复制。