搜索
热搜: 活动
Hi~登录注册
楼主: 庞先生

Attention机制详解(二)——Self-Attention与Transformer

[复制链接]

0

主题

1892

帖子

3257

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3257
发表于 2022-10-9 18:23:02 | 显示全部楼层 来自: 中国北京
感谢作者。还想请问“其中key, query, value均来自前一层encoder的输出”这句话什么意思?
前一层给后一层的输入不应该是加权融合的Z嘛?然后Z就相当于最底层输入X,重复运算即可,难道k/q/v权重矩阵也是每层共享的嘛?
求教,谢谢!
回复

使用道具 举报

0

主题

1880

帖子

3246

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3246
发表于 2022-10-9 18:25:50 | 显示全部楼层 来自: 中国
不是直接是Z,而是将Z经过一个前馈神经网络,每一层encoder包含Attention Layer,FeedForward Network和一些normalization。
回复

使用道具 举报

0

主题

1750

帖子

2928

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
2928
发表于 2022-10-9 18:29:14 | 显示全部楼层 来自: 中国广东梅州
第一级decoder的key, query, value均来自前一层decoder的输出,但加入了Mask操作。这句话中第一级的decoder已经是第一层了吧?为什么前面前一层的decoder?这里的“级”和“层”有什么区别吗?请楼主指导一下,不是太理解。
回复

使用道具 举报

0

主题

1763

帖子

3019

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3019
发表于 2022-10-9 18:33:54 | 显示全部楼层 来自: 中国浙江杭州
decoder一层包含两级attention layer, 一个是masked,另一个非mask
回复

使用道具 举报

0

主题

1864

帖子

3219

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3219
发表于 2022-10-9 18:35:35 | 显示全部楼层 来自: 中国河南郑州
但是前馈神经网络输出的是key,query,value吗?
回复

使用道具 举报

0

主题

1758

帖子

2898

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
2898
发表于 2022-10-9 18:37:48 | 显示全部楼层 来自: 中国
k,q,v是在attention layer中得到的,前一级输出的可以看作是例子中的X,这里不是说前一级直接输出k,q,v而是为了和encoder-decoder attention中他们的来源做区分。
回复

使用道具 举报

0

主题

1887

帖子

3260

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3260
发表于 2022-10-9 18:40:33 | 显示全部楼层 来自: 中国北京
输入矩阵X分别乘三个不同的trainable Matrix WQ WK WV得到QKV
回复

使用道具 举报

0

主题

1826

帖子

3134

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3134
发表于 2022-10-9 18:43:22 | 显示全部楼层 来自: 中国北京
这篇文章我看出高潮了,写得真好
回复

使用道具 举报

0

主题

1844

帖子

3205

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
3205
发表于 2022-10-9 18:45:52 | 显示全部楼层 来自: 中国
self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,首先我们要计算Q与K之间的点乘。Q与K的点乘结果是一个标量,怎么进行sofomax呢??
回复

使用道具 举报

0

主题

1690

帖子

2850

积分

中学一

Rank: 9Rank: 9Rank: 9

积分
2850
发表于 2022-10-9 18:48:09 | 显示全部楼层 来自: 中国北京
例子之中√dk为什么等于8呢??
回复

使用道具 举报

游客
回复
您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表