搜索
热搜: 活动
Hi~登录注册
楼主: 庞先生

Attention机制详解(二)——Self-Attention与Transformer

[复制链接]

0

主题

1107

帖子

1871

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1871
发表于 2022-10-9 18:23:02 | 显示全部楼层 来自: 中国北京
感谢作者。还想请问“其中key, query, value均来自前一层encoder的输出”这句话什么意思?
前一层给后一层的输入不应该是加权融合的Z嘛?然后Z就相当于最底层输入X,重复运算即可,难道k/q/v权重矩阵也是每层共享的嘛?
求教,谢谢!
回复

使用道具 举报

0

主题

1103

帖子

1855

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1855
发表于 2022-10-9 18:25:50 | 显示全部楼层 来自: 中国
不是直接是Z,而是将Z经过一个前馈神经网络,每一层encoder包含Attention Layer,FeedForward Network和一些normalization。
回复

使用道具 举报

0

主题

998

帖子

1560

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1560
发表于 2022-10-9 18:29:14 | 显示全部楼层 来自: 中国广东梅州
第一级decoder的key, query, value均来自前一层decoder的输出,但加入了Mask操作。这句话中第一级的decoder已经是第一层了吧?为什么前面前一层的decoder?这里的“级”和“层”有什么区别吗?请楼主指导一下,不是太理解。
回复

使用道具 举报

0

主题

1023

帖子

1692

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1692
发表于 2022-10-9 18:33:54 | 显示全部楼层 来自: 中国浙江杭州
decoder一层包含两级attention layer, 一个是masked,另一个非mask
回复

使用道具 举报

0

主题

1063

帖子

1761

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1761
发表于 2022-10-9 18:35:35 | 显示全部楼层 来自: 中国河南郑州
但是前馈神经网络输出的是key,query,value吗?
回复

使用道具 举报

0

主题

1011

帖子

1584

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1584
发表于 2022-10-9 18:37:48 | 显示全部楼层 来自: 中国
k,q,v是在attention layer中得到的,前一级输出的可以看作是例子中的X,这里不是说前一级直接输出k,q,v而是为了和encoder-decoder attention中他们的来源做区分。
回复

使用道具 举报

0

主题

1133

帖子

1892

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1892
发表于 2022-10-9 18:40:33 | 显示全部楼层 来自: 中国北京
输入矩阵X分别乘三个不同的trainable Matrix WQ WK WV得到QKV
回复

使用道具 举报

0

主题

1071

帖子

1788

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1788
发表于 2022-10-9 18:43:22 | 显示全部楼层 来自: 中国北京
这篇文章我看出高潮了,写得真好
回复

使用道具 举报

0

主题

1088

帖子

1848

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1848
发表于 2022-10-9 18:45:52 | 显示全部楼层 来自: 中国
self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,首先我们要计算Q与K之间的点乘。Q与K的点乘结果是一个标量,怎么进行sofomax呢??
回复

使用道具 举报

0

主题

1002

帖子

1622

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1622
发表于 2022-10-9 18:48:09 | 显示全部楼层 来自: 中国北京
例子之中√dk为什么等于8呢??
回复

使用道具 举报

游客
回复
您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表