搜索
热搜: 活动
Hi~登录注册
楼主: 庞先生

Attention机制详解(二)——Self-Attention与Transformer

[复制链接]

0

主题

1105

帖子

1867

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1867
发表于 2022-10-9 18:23:02 | 显示全部楼层 来自: 中国北京
感谢作者。还想请问“其中key, query, value均来自前一层encoder的输出”这句话什么意思?
前一层给后一层的输入不应该是加权融合的Z嘛?然后Z就相当于最底层输入X,重复运算即可,难道k/q/v权重矩阵也是每层共享的嘛?
求教,谢谢!
回复

使用道具 举报

0

主题

1099

帖子

1847

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1847
发表于 2022-10-9 18:25:50 | 显示全部楼层 来自: 中国
不是直接是Z,而是将Z经过一个前馈神经网络,每一层encoder包含Attention Layer,FeedForward Network和一些normalization。
回复

使用道具 举报

0

主题

997

帖子

1558

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1558
发表于 2022-10-9 18:29:14 | 显示全部楼层 来自: 中国广东梅州
第一级decoder的key, query, value均来自前一层decoder的输出,但加入了Mask操作。这句话中第一级的decoder已经是第一层了吧?为什么前面前一层的decoder?这里的“级”和“层”有什么区别吗?请楼主指导一下,不是太理解。
回复

使用道具 举报

0

主题

1020

帖子

1686

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1686
发表于 2022-10-9 18:33:54 | 显示全部楼层 来自: 中国浙江杭州
decoder一层包含两级attention layer, 一个是masked,另一个非mask
回复

使用道具 举报

0

主题

1059

帖子

1753

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1753
发表于 2022-10-9 18:35:35 | 显示全部楼层 来自: 中国河南郑州
但是前馈神经网络输出的是key,query,value吗?
回复

使用道具 举报

0

主题

1009

帖子

1580

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1580
发表于 2022-10-9 18:37:48 | 显示全部楼层 来自: 中国
k,q,v是在attention layer中得到的,前一级输出的可以看作是例子中的X,这里不是说前一级直接输出k,q,v而是为了和encoder-decoder attention中他们的来源做区分。
回复

使用道具 举报

0

主题

1130

帖子

1886

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1886
发表于 2022-10-9 18:40:33 | 显示全部楼层 来自: 中国北京
输入矩阵X分别乘三个不同的trainable Matrix WQ WK WV得到QKV
回复

使用道具 举报

0

主题

1071

帖子

1788

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1788
发表于 2022-10-9 18:43:22 | 显示全部楼层 来自: 中国北京
这篇文章我看出高潮了,写得真好
回复

使用道具 举报

0

主题

1085

帖子

1842

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1842
发表于 2022-10-9 18:45:52 | 显示全部楼层 来自: 中国
self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,首先我们要计算Q与K之间的点乘。Q与K的点乘结果是一个标量,怎么进行sofomax呢??
回复

使用道具 举报

0

主题

997

帖子

1612

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1612
发表于 2022-10-9 18:48:09 | 显示全部楼层 来自: 中国北京
例子之中√dk为什么等于8呢??
回复

使用道具 举报

游客
回复
您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表