Python tf.keras.layers.AdditiveAttention用法及代碼示例

附加注意層，又名Bahdanau-style 注意。

繼承自：Layer，Module

用法

tf.keras.layers.AdditiveAttention(
    use_scale=True, **kwargs
)

參數

use_scale 如果 True ，將創建一個變量來縮放注意力分數。
causal 布爾值。對於解碼器self-attention，設置為True。添加一個掩碼，使位置 i 不能關注位置 j > i 。這可以防止信息從未來流向過去。默認為 False 。
dropout 在 0 和 1 之間浮點數。注意分數下降的單位分數。默認為 0.0。

輸入是 query 形狀的張量 [batch_size, Tq, dim] , value 形狀的 [batch_size, Tv, dim] 和 key 形狀的張量 [batch_size, Tv, dim] 。計算步驟如下：

分別將 query 和 key 重塑為形狀 [batch_size, Tq, 1, dim] 和 [batch_size, 1, Tv, dim]。
計算形狀為 [batch_size, Tq, Tv] 的分數作為非線性總和：scores = tf.reduce_sum(tf.tanh(query + key), axis=-1)
使用分數來計算形狀為 [batch_size, Tq, Tv] : distribution = tf.nn.softmax(scores) 的分布。
使用 distribution 創建 value 與形狀 [batch_size, Tq, dim] 的線性組合：return tf.matmul(distribution, value)。

調用參數：

inputs:以下張量列表：
- 查詢：查詢形狀為 [batch_size, Tq, dim] 的 Tensor 。
- 值：形狀 [batch_size, Tv, dim] 的值 Tensor。
- 鍵：形狀為[batch_size, Tv, dim]的可選鍵Tensor。如果沒有給出，將對 key 和 value 使用 value ，這是最常見的情況。
mask:以下張量列表：
- query_mask：布爾掩碼 Tensor 形狀為 [batch_size, Tq] 。如果給定，輸出將在 mask==False 的位置為零。
- value_mask：布爾掩碼 Tensor 形狀為 [batch_size, Tv] 。如果給定，將應用掩碼以使mask==False 位置處的值對結果沒有貢獻。
training:Python 布爾值，指示層應該在訓練模式(添加 dropout)還是在推理模式(無 dropout)下運行。
return_attention_scores：布爾，它True，返回注意力分數(在屏蔽和 softmax 之後)作為附加輸出參數。

輸出：

形狀 [batch_size, Tq, dim] 的注意輸出。 [可選] 使用形狀 [batch_size, Tq, Tv] 進行遮罩和 softmax 後的注意力得分。

query , value 和key 的含義取決於應用程序。例如，在文本相似度的情況下，query 是第一段文本的序列嵌入，value 是第二段文本的序列嵌入。 key 通常與 value 是相同的張量。

下麵是在 CNN+Attention 網絡中使用 AdditiveAttention 的代碼示例：

# Variable-length int sequences.
query_input = tf.keras.Input(shape=(None,), dtype='int32')
value_input = tf.keras.Input(shape=(None,), dtype='int32')

# Embedding lookup.
token_embedding = tf.keras.layers.Embedding(max_tokens, dimension)
# Query embeddings of shape [batch_size, Tq, dimension].
query_embeddings = token_embedding(query_input)
# Value embeddings of shape [batch_size, Tv, dimension].
value_embeddings = token_embedding(value_input)

# CNN layer.
cnn_layer = tf.keras.layers.Conv1D(
    filters=100,
    kernel_size=4,
    # Use 'same' padding so outputs have the same shape as inputs.
    padding='same')
# Query encoding of shape [batch_size, Tq, filters].
query_seq_encoding = cnn_layer(query_embeddings)
# Value encoding of shape [batch_size, Tv, filters].
value_seq_encoding = cnn_layer(value_embeddings)

# Query-value attention of shape [batch_size, Tq, filters].
query_value_attention_seq = tf.keras.layers.AdditiveAttention()(
    [query_seq_encoding, value_seq_encoding])

# Reduce over the sequence axis to produce encodings of shape
# [batch_size, filters].
query_encoding = tf.keras.layers.GlobalAveragePooling1D()(
    query_seq_encoding)
query_value_attention = tf.keras.layers.GlobalAveragePooling1D()(
    query_value_attention_seq)

# Concatenate query and document encodings to produce a DNN input layer.
input_layer = tf.keras.layers.Concatenate()(
    [query_encoding, query_value_attention])

# Add DNN layers, and create Model.
# ...

相關用法

注：本文由純淨天空篩選整理自tensorflow.org大神的英文原創作品 tf.keras.layers.AdditiveAttention。非經特殊聲明，原始代碼版權歸原作者所有，本譯文未經允許或授權，請勿轉載或複製。