首页 > 心理学

为什么自己写的注意力机制会比不过torch的注意力机制效果呢?

时间:2024-10-27 17:49:36   来源:网络

多头注意力机制和自注意力机制哪个好

多头注意力机制和自注意力机制,多头注意力机制好。自注意力机制就是通过运算来直接计算得到句子,在编码过程中每个位置上的注意力权重,再以权重和的形式来计算得到整个句子的隐含向量表示。自注意力机制的缺陷就,模型在对当前位置的信息进行编码时,会过度的将注意力集中于自身的位置,基于此提出了通过多头注意力机制来解决这一问题。实验证明,多头注意力机制效果优于单头注意力。

注意力和自注意力机制的区别是什么呢?

注意力和自注意力机制的区别是概念和存在意义。如下所示:

注意力机制:主要是引入了注意力机制这个概念,比较有代表性的是SENet。通过对每一个特征层进行全局池化,再到全连接层中找特征之间的联系,最后得到权重划分。

自注意力机制:主要是根据两两之间的关系来引入权重,在通道、空间两个层面,通过计算每个单元通道与通道之间、像素点与像素点之间的值,来加强两两之间的联系,进而提高精确度语义分割。


视觉注意力机制:

视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。

这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的一种生存机制,人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。

深度学习注意力机制真能提高吗

真能提高。深度学习注意力机制是对人类视觉注意力机制的仿生,是人类视觉注意力能够以高分辨率接收于图片上的某个区域,并且以低分辨率感知其周边区域提高注意力。

为什么说Transformer的注意力机制是相对廉价的?注意力机制相对更对于RNN系列及CNN系列算法有何优势?

QA形式对自然语言处理中注意力机制(Attention)进行总结,并对Transformer进行深入解析。


二、Transformer(Attention Is All You Need)详解
1、Transformer的整体架构是怎样的?由哪些部分组成?
2、Transformer Encoder 与 Transformer Decoder 有哪些不同?
3、Encoder-Decoder attention 与self-attention mechanism有哪些不同?
4、multi-head self-attention mechanism具体的计算过程是怎样的?
5、Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的?有什么变化?

一、Attention机制剖析

1、为什么要引入Attention机制?

根据通用近似定理,前馈网络和循环网络都有很强的能力。但为什么还要引入注意力机制呢?

如何提升学生注意力——注意力机制?

上课才开始几分钟,有的孩子就交头接耳坐不住了;有的孩子发呆、眼神游离;有的孩子给别人捣乱,拿人家东西;有的孩子扣橡皮等,注意力比较分散。另外一种情况是,老师留给孩子的任务并不多,也很简单,但有的孩子就是跟不上节奏,丢三落四。为了让老师们今后遇到这类问题能有解决方法,我先来和大家介绍一下“注意力”背后的机制,老师们可以在遇到类似问题时做分析,或者能理解孩子为什么出现这些问题,知道有哪些解决办法。

老师们看到下面这张PPT的时候,注意力被什么所吸引呢?百分之九十以上的人都会注意到右边的图片。因为图片比较有趣,色彩丰富,仔细看好像隐含什么东西,这就揭示出了一个人的注意力特点。

一个人的注意力范围、时间是有限的,人不像扫描仪或者照相机,把所有看到的东西都收进来、记录下来,引起兴趣,包括我们的孩子。孩子在教学过程中,注意力只能在某一时段内聚焦,或者指向某一个具体任务。每个人的注意力时间不同、广度不同,类型也有差异。

有一种注意力类型叫做无意注意。比如说,上课过程中,当教室门突然发出大声响,学生就会扭过去看,年龄越小的孩子越明显,这就是一种无意注意。这种注意比较难控制,因为它是人的本能反应。还有一种注意力类型叫做有意注意,比如正在听课的各位老师,你要努力让自己停留在课程中,关注讨论的内容,这是需要意志来控制的。

大脑的一个工作原则是喜欢有趣的,能够带来愉悦感的事物,另外就是和我们切身需求相关的事物。人的心理能量是有限的,如果学生觉得这堂课的内容没意思,他就会去找别的事情来满足好奇的需求。

注意力是人的本能反应,人清醒着就会注意到某些东西或某些事物。不同年龄段的人,特别是小学到高中这个年龄段的儿童、青少年,他们的注意力特点有所不同,下面这个表格可以做参考。从注意类型来看,六岁到八岁的孩子,他的注意力类型以无意注意为主,比如一个学生在上课时出了怪声,低年级的孩子会对这个现象有后续的波及反应,高年级孩子受影响程度则较弱。

小学低学段的学生容易被一些新鲜的刺激吸引过去,注意力保持时间也比较短,只有5~10分钟。老师们想让学生一节课都好好坐在那,这个要求就有点高了。到了小学高段,孩子开始有意的控制自己要认真听课,不能捣乱,注意力时间也在延长,10~15分钟;到了初中,孩子已经以有意注意为主了,注意力时间在15-20分钟;到了高中基本上就跟成人差不多了。

(来源:中国教育学会会员服务—专家访谈)


标签:  未分类 学习 教育 理工学科 算法

猜你喜欢