自注意力机制(Self-Attention Mechanism)

自注意力机制(Self-Attention Mechanism)

一、什么是Self-Attention Mechanism

先让我们来了解什么是注意力机制,当我们看到一张图画时,第一眼肯定会注意到图片中最显眼的特征,**深度学习中的注意力机制(Attention Mechanism)**是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。

例如下图:

我们大部分人第一眼注意到的一定是东方明珠,但是这图其实还有旁边的楼,下面的汽车等等。这其实就是一种Attention,我们关注的是最主要的东西,而刻意“忽视”那些次要的东西。

我们再来讲解一个重要的概念,即query、key和value。这三个词翻译成中文就是查询、键、值,看到这中文的意思,还是迷迷糊糊的。我们来举个例子:小明想在b站搜索深度学习,他把深度学习四个字输入到搜索栏,按下搜索键。搜索引擎就会将他的查询query映射到数据库中相关的标签key,如吴恩达、神经网络等等,然后向小明展示最匹配的结果value

在这里插入图片描述

再比如以下这张图可以较好地去理解注意力机制,其展示了人类在看到一幅图像时如何高效分配有限注意力资源的,其中红色区域表明视觉系统更加关注的目标,从图中可以看出:人们会把注意力更多的投入到人的脸部。文本的标题以及文章的首句等位置。
在这里插入图片描述

自注意力机制(self-attention mechanism),也被称为注意力机制(attention mechanism),是一种用于序列数据建模的机制。它最初在自然语言处理领域中被广泛使用,但也可以应用于其他序列数据,如音频和时间序列数据

自注意力机制的目标是对序列中的每个元素分配一个权重,以便根据元素之间的关系进行建模。它通过将输入序列中的每个元素与其他元素进行比较来实现这一点,然后为每个元素计算一个权重,表示该元素与其他元素的关联程度。这些权重可以用于加权聚合序列中的元素,以产生一个表示整个序列的上下文向量。

二、Self-Attention Mechanism的架构

原论文地址如下:Attention is All you Need (neurips.cc)

在原论文中我们可以看见这个公式在这里插入图片描述,乍一看晦涩难懂,但是让我们一点一点来看,这个公式中的Q,K,V就是上面我们所描述的query、key和value

1、计算过程

(1)定义输入

在进行Self - Attention之前,我们首先定义3个1×4的input。 pytorch代码如下:

import torch
x = [
    [1, 0, 1, 0],  # input 1
    [0, 2, 0, 2],  # input 2
    [1, 1, 1, 1]   # input 3
    ]
x = torch.tensor(x, dtype=torch.float32)

在这里插入图片描述

(2)初始化权重

每个input和三个权重矩阵分别相乘会得到三个新的矩阵,分别是key(橙色),query(红色),value(紫色)。我们已经令input的shape为1×4,key、query、value的shape为1×3,因此可以推出与input相乘的权重矩阵的shape为4×3。 代码如下:

import torch
w_key = [
  [0, 0, 1],
  [1, 1, 0],
  [0, 1, 0],
  [1, 1, 0]
]  
w_query = [
  [1, 0, 1],
  [1, 0, 0],
  [0, 0, 1],
  [0, 1, 1]
]
w_value = [
  [0, 2, 0],
  [
自注意力机制self-attention mechanism)是Transformer模型的核心之一,它允许模型在计算表示向量时关注输入序列中的不同部分,以便更好地建模序列之间的依赖关系。 自注意力机制的基本思想是,对于一个输入序列中的每个位置,计算该位置与序列中其他位置的相似度,并将相似度作为权重将这些位置的表示向量进行加权,以生成每个位置的新表示向量。 具体来说,假设输入序列为$x_1,x_2,\cdots,x_n$,每个位置的表示向量为$h_1,h_2,\cdots,h_n$。对于位置$i$,我们可以通过计算该位置与其他位置的相似度得到一个权重向量$w_i$,其中$w_{ij}$表示位置$i$和位置$j$之间的相似度。然后,我们可以将权重向量$w_i$应用于每个位置的表示向量$h_j$,并将加权的值相加,以得到位置$i$的新表示向量$h'_i$: $$h'_i=\sum_{j=1}^n w_{ij}h_j$$ 其中,权重向量$w_i$的计算可以通过先将输入序列中每个位置的表示向量进行线性变换得到查询向量$q_i$、键向量$k_j$和值向量$v_j$,然后计算查询向量$q_i$和键向量$k_j$之间的相似度,并将相似度归一化为概率分布,以得到每个位置的注意力权重。具体来说,权重向量$w_i$的计算公式为: $$w_{ij}=\frac{\exp(q_i\cdot k_j)}{\sum_{k=1}^n \exp(q_i\cdot k_k)}$$ 其中,$\cdot$表示向量之间的点积。 自注意力机制的优点在于,它能够捕捉输入序列中不同部分之间的依赖关系,从而更好地建模序列。此外,它还可以并行计算,因为每个位置的表示向量可以独立地计算。 总之,自注意力机制是一种非常强大的序列建模工具,已经在许多NLP任务中取得了出色的表现。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值