Attention机制详解（二）——Self-Attention与Transformer

最美的年纪勋鹿 · 发表于 2022-10-9 18:23:02

感谢作者。还想请问“其中key, query, value均来自前一层encoder的输出”这句话什么意思？
前一层给后一层的输入不应该是加权融合的Z嘛？然后Z就相当于最底层输入X，重复运算即可，难道k/q/v权重矩阵也是每层共享的嘛？
求教，谢谢！

乌奇 · 发表于 2022-10-9 18:25:50

不是直接是Z，而是将Z经过一个前馈神经网络,每一层encoder包含Attention Layer，FeedForward Network和一些normalization。

zhanngxuanwen · 发表于 2022-10-9 18:29:14

第一级decoder的key, query, value均来自前一层decoder的输出，但加入了Mask操作。这句话中第一级的decoder已经是第一层了吧？为什么前面前一层的decoder？这里的“级”和“层”有什么区别吗？请楼主指导一下，不是太理解。

3322 · 发表于 2022-10-9 18:33:54

decoder一层包含两级attention layer, 一个是masked，另一个非mask

2103189 · 发表于 2022-10-9 18:35:35

但是前馈神经网络输出的是key，query，value吗？

颐阳补酒 · 发表于 2022-10-9 18:37:48

k,q,v是在attention layer中得到的，前一级输出的可以看作是例子中的X，这里不是说前一级直接输出k,q,v而是为了和encoder-decoder attention中他们的来源做区分。

畅小抽 · 发表于 2022-10-9 18:40:33

输入矩阵X分别乘三个不同的trainable Matrix WQ WK WV得到QKV

邹秀露 · 发表于 2022-10-9 18:43:22

这篇文章我看出高潮了，写得真好

hysbd · 发表于 2022-10-9 18:45:52

self-attention来讲，Q(Query), K(Key), V(Value)三个矩阵均来自同一输入，首先我们要计算Q与K之间的点乘。Q与K的点乘结果是一个标量，怎么进行sofomax呢？？

多多吃吃2吃吃 · 发表于 2022-10-9 18:48:09

例子之中√dk为什么等于8呢？？