搜索
热搜: 活动
Hi~登录注册
楼主: 庞先生

Attention机制详解(二)——Self-Attention与Transformer

[复制链接]

0

主题

1078

帖子

1813

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1813
发表于 2022-10-9 18:23:02 | 显示全部楼层 来自: 中国北京
感谢作者。还想请问“其中key, query, value均来自前一层encoder的输出”这句话什么意思?
前一层给后一层的输入不应该是加权融合的Z嘛?然后Z就相当于最底层输入X,重复运算即可,难道k/q/v权重矩阵也是每层共享的嘛?
求教,谢谢!
回复

使用道具 举报

0

主题

1073

帖子

1795

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1795
发表于 2022-10-9 18:25:50 | 显示全部楼层 来自: 中国
不是直接是Z,而是将Z经过一个前馈神经网络,每一层encoder包含Attention Layer,FeedForward Network和一些normalization。
回复

使用道具 举报

0

主题

979

帖子

1522

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1522
发表于 2022-10-9 18:29:14 | 显示全部楼层 来自: 中国广东梅州
第一级decoder的key, query, value均来自前一层decoder的输出,但加入了Mask操作。这句话中第一级的decoder已经是第一层了吧?为什么前面前一层的decoder?这里的“级”和“层”有什么区别吗?请楼主指导一下,不是太理解。
回复

使用道具 举报

0

主题

998

帖子

1642

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1642
发表于 2022-10-9 18:33:54 | 显示全部楼层 来自: 中国浙江杭州
decoder一层包含两级attention layer, 一个是masked,另一个非mask
回复

使用道具 举报

0

主题

1032

帖子

1699

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1699
发表于 2022-10-9 18:35:35 | 显示全部楼层 来自: 中国河南郑州
但是前馈神经网络输出的是key,query,value吗?
回复

使用道具 举报

0

主题

984

帖子

1530

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1530
发表于 2022-10-9 18:37:48 | 显示全部楼层 来自: 中国
k,q,v是在attention layer中得到的,前一级输出的可以看作是例子中的X,这里不是说前一级直接输出k,q,v而是为了和encoder-decoder attention中他们的来源做区分。
回复

使用道具 举报

0

主题

1109

帖子

1844

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1844
发表于 2022-10-9 18:40:33 | 显示全部楼层 来自: 中国北京
输入矩阵X分别乘三个不同的trainable Matrix WQ WK WV得到QKV
回复

使用道具 举报

0

主题

1045

帖子

1736

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1736
发表于 2022-10-9 18:43:22 | 显示全部楼层 来自: 中国北京
这篇文章我看出高潮了,写得真好
回复

使用道具 举报

0

主题

1065

帖子

1802

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1802
发表于 2022-10-9 18:45:52 | 显示全部楼层 来自: 中国
self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,首先我们要计算Q与K之间的点乘。Q与K的点乘结果是一个标量,怎么进行sofomax呢??
回复

使用道具 举报

0

主题

965

帖子

1548

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1548
发表于 2022-10-9 18:48:09 | 显示全部楼层 来自: 中国北京
例子之中√dk为什么等于8呢??
回复

使用道具 举报

游客
回复
您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表