搜索
热搜: 活动
Hi~登录注册
楼主: 庞先生

Attention机制详解(二)——Self-Attention与Transformer

[复制链接]

0

主题

1070

帖子

1797

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1797
发表于 2022-10-9 18:23:02 | 显示全部楼层 来自: 中国北京
感谢作者。还想请问“其中key, query, value均来自前一层encoder的输出”这句话什么意思?
前一层给后一层的输入不应该是加权融合的Z嘛?然后Z就相当于最底层输入X,重复运算即可,难道k/q/v权重矩阵也是每层共享的嘛?
求教,谢谢!
回复

使用道具 举报

0

主题

1060

帖子

1769

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1769
发表于 2022-10-9 18:25:50 | 显示全部楼层 来自: 中国
不是直接是Z,而是将Z经过一个前馈神经网络,每一层encoder包含Attention Layer,FeedForward Network和一些normalization。
回复

使用道具 举报

0

主题

959

帖子

1482

积分

小学四

Rank: 6Rank: 6

积分
1482
发表于 2022-10-9 18:29:14 | 显示全部楼层 来自: 中国广东梅州
第一级decoder的key, query, value均来自前一层decoder的输出,但加入了Mask操作。这句话中第一级的decoder已经是第一层了吧?为什么前面前一层的decoder?这里的“级”和“层”有什么区别吗?请楼主指导一下,不是太理解。
回复

使用道具 举报

0

主题

990

帖子

1626

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1626
发表于 2022-10-9 18:33:54 | 显示全部楼层 来自: 中国浙江杭州
decoder一层包含两级attention layer, 一个是masked,另一个非mask
回复

使用道具 举报

0

主题

1022

帖子

1679

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1679
发表于 2022-10-9 18:35:35 | 显示全部楼层 来自: 中国河南郑州
但是前馈神经网络输出的是key,query,value吗?
回复

使用道具 举报

0

主题

970

帖子

1502

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1502
发表于 2022-10-9 18:37:48 | 显示全部楼层 来自: 中国
k,q,v是在attention layer中得到的,前一级输出的可以看作是例子中的X,这里不是说前一级直接输出k,q,v而是为了和encoder-decoder attention中他们的来源做区分。
回复

使用道具 举报

0

主题

1097

帖子

1820

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1820
发表于 2022-10-9 18:40:33 | 显示全部楼层 来自: 中国北京
输入矩阵X分别乘三个不同的trainable Matrix WQ WK WV得到QKV
回复

使用道具 举报

0

主题

1021

帖子

1688

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1688
发表于 2022-10-9 18:43:22 | 显示全部楼层 来自: 中国北京
这篇文章我看出高潮了,写得真好
回复

使用道具 举报

0

主题

1055

帖子

1782

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1782
发表于 2022-10-9 18:45:52 | 显示全部楼层 来自: 中国
self-attention来讲,Q(Query), K(Key), V(Value)三个矩阵均来自同一输入,首先我们要计算Q与K之间的点乘。Q与K的点乘结果是一个标量,怎么进行sofomax呢??
回复

使用道具 举报

0

主题

952

帖子

1522

积分

小学五

Rank: 7Rank: 7Rank: 7

积分
1522
发表于 2022-10-9 18:48:09 | 显示全部楼层 来自: 中国北京
例子之中√dk为什么等于8呢??
回复

使用道具 举报

游客
回复
您需要登录后才可以回帖 登录 | 立即注册

快速回复 返回顶部 返回列表