为什么Bert中用乘性注意力而不用加性注意力?

在自然语言处理中，加性注意力和乘性注意力是两种广泛使用的注意力机制。虽然它们在数学上很相似，但在实践中，乘性注意力在许多任务上都表现得更好。

加性注意力模型是指对查询向量 $q$ 和键向量 $k$ 进行线性变换后使用 $tanh$ 或 $ReLU$ 等非线性函数作为激活函数，然后将它们的和进行 softmax 归一化。加性注意力的计算量是 $O(dk)$，其中 $d$ 和 $k$ 分别是查询向量和键向量的维度。

乘性注意力将查询向量 $q$ 和键向量 $k$ 进行点积操作，然后使用 softmax 函数将得分进行归一化。乘性注意力的计算量为 $O(d)$。因此，当向量的维度很大时，乘性注意力的计算效率要比加性注意力高。

此外，乘性注意力可以更好地处理长序列，并且具有更好的表达能力。由于乘性注意力使用点积操作来计算注意力分数，因此它可以更好地捕捉到查询向量 $q$ 和键向量 $k$ 之间的相似度。这对于一些任务，如机器翻译，是非常重要的。

综上所述，乘性注意力比加性注意力更加高效和有效

正文完

发表至： NLP

2023-11-26

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请联系tensortimes@gmail.com。

GPT开源实现 nanoGPT

Amphion：音频、音乐与语音生成的开源利器