attention-model相关内容

带有注意力的 LSTM

我正在尝试为堆叠的 LSTM 实现添加注意力机制 https://github.com/salesforce/awd-lstm-lm 所有在线示例都使用编码器-解码器架构,我不想使用它(我是否必须使用注意力机制?). 基本上,我用过 https://webcache.googleusercontent.com/search?q=cache:81Q7u36DRPIJ:https://gi ..

为什么在 Transformer 模型中嵌入向量乘以一个常数?

我正在学习应用 注意力就是你所需要的 来自 tensorflow 官方文档语言理解的 Transformer 模型. 作为部分位置编码说: 由于该模型不包含任何递归或卷积,添加位置编码以向模型提供有关词在句子中的相对位置. 将位置编码向量添加到嵌入向量中. 我的理解是在embedding vector中直接加上positional encoding vector.但是我看代 ..
发布时间:2021-12-27 17:17:04 Python

如何使用 keras 构建注意力模型?

我正在尝试理解注意力模型并自己构建一个.经过多次搜索,我发现了 这个网站用 keras 编码的模型,看起来也很简单.但是当我试图在我的机器上构建相同的模型时,它给出了多个参数错误.该错误是由于在类 Attention 中传递的参数不匹配.在网站的注意力类中,它要求一个参数,但它用两个参数启动注意力对象. 将 tensorflow 导入为 tf最大长度 = 200rnn_cell_size = ..
发布时间:2021-12-27 17:14:42 Python

在 Tensorflow 中可视化注意力激活

有没有办法在 TensorFlow 的 seq2seq 模型中可视化某些输入的注意力权重,例如上面链接中的图(来自 Bahdanau 等人,2014 年)?我已经找到了 TensorFlow 的 github 问题,但我不知道如何获取会议期间的注意力面具. 解决方案 我还想为我的文本摘要任务可视化 Tensorflow seq2seq ops 的注意力权重.我认为临时解决方案是使用 ses ..

序列到序列 - 用于时间序列预测

我尝试构建一个序列到序列模型,以根据前几个输入预测传感器信号随时间的变化(见下图) 模型工作正常,但我想“增加趣味"并尝试在两个 LSTM 层之间添加一个注意力层. 型号代码: def train_model(x_train, y_train, n_units=32, n_steps=20, epochs=200,n_steps_out=1):过滤器 = 250内核大小 = 3log ..

检查目标时发生错误:预期density_具有3维,但数组的形状为(100,4)

我有一个2输入4输出的网络.我建立了一个时间步长= 5的LSTM模型. 将numpy导入为np将tensorflow导入为tf从keras.models导入顺序从keras.layers导入Dense,Dropout,Activation,Flatten,LSTMD从keras.layers导入输入,LSTM,串联,密集,Lambda从keras.models导入模型从sklearn.metri ..
发布时间:2021-05-30 21:31:26 其他开发

无法设置属性"trainable_weights",可能是因为它与现有的只读冲突

我的代码在colab中运行完美.但是今天它没有运行.它说无法设置属性"trainable_weights",可能是因为它与对象的现有只读属性冲突.请选择其他名称. 我正在将LSTM与关注层配合使用. 班级注意力(层): def __init __(self,** kwargs):self.init = initializers.get('正常')#self.input_spec = ..
发布时间:2021-05-30 21:31:02 其他开发

了解巴赫达瑙的注意力线性代数

下图中,巴赫达瑙的加法注意力被视为等式4的第二部分. 我试图弄清楚矩阵w1,w2,ht,hs和v的形状,以便弄清楚在 ht和hs可以具有不同的最终尺寸吗?说(批量大小,总单位)和(批量大小,时间窗口).上面提到的论文中的公式8似乎正在这样做. 上式中的等式8具有以下表示法: 这将扩展到什么范围? (W1 . ht-1) + (W1 . Ct-1) 或 W1 . ..
发布时间:2021-02-14 20:54:37 Python

如何用keras建立注意力模型?

我试图了解注意力模型,并自己建立一个。经过多次搜索,我发现了此网站,该站点具有吸引力用keras编码的模型,看起来也很简单。但是,当我尝试在我的机器上构建相同的模型时,会出现多个参数错误。该错误是由于在类 Attention 中传递了不匹配的参数所致。在网站的关注类中,它要求一个自变量,但是它用两个自变量来引发关注对象。 import tensorflow as tf max_le ..
发布时间:2020-10-19 22:14:51 Python

在OpenNMT-py中进行翻译时获得对齐/注意

有人在Opennmt-py中翻译时知道如何获得比对权重吗?通常,唯一的输出是结果语句,我已经尝试为注意力权重找到调试标志或类似标志.到目前为止,我一直没有成功. 解决方案 您可以获取注意矩阵.请注意,它与 alignment (对齐)不同,后者是来自统计(而非神经)机器翻译的术语. github上的一个线程对此进行了讨论.这是讨论的摘录.当您从该模式获得翻译时,注意力将集中在attn ..

序列到序列-用于时间序列预测

我已尝试构建一个序列到序列模型,以基于其前几个输入来预测传感器信号随时间的推移(请参见下图) 该模型可以正常工作,但是我想“为事情加分",并尝试在两个LSTM层之间添加一个关注层. 型号代码: def train_model(x_train, y_train, n_units=32, n_steps=20, epochs=200, n_steps_out ..

为什么在Transformer模型中将嵌入向量乘以常数?

我正在学习应用注意是您所需要的提出的转换模型 >来自tensorflow官方文档用于理解语言的Transformer模型. 在位置编码部分中说: 由于该模型不包含任何重复或卷积, 添加了位置编码,以为模型提供有关以下内容的信息 句子中单词的相对位置. 位置编码矢量已添加到嵌入矢量. 我的理解是将positional encoding vector直接添加到embedding ..
发布时间:2020-06-21 19:41:04 Python

在Tensorflow中可视化注意力激活

在TensorFlow的seq2seq模型中,是否有办法可视化某些输入的注意力权重,如上面链接中的图(来自Bahdanau等人,2014)?我已经发现 TensorFlow的github问题,但是我找不到如何获取会议期间的注意口罩. 解决方案 我还希望可视化Tensorflow seq2seq ops的文本摘要任务的关注权重.而且我认为临时解决方案是如上所述使用session.run()评 ..

分层注意力网络-model.fit生成错误"ValueError:输入维度不匹配"

对于背景,我指的是等级注意网络用于情感分类. 对于代码:我的完整代码发布在下面,但这只是作者在上面链接中发布的原始代码的简单修订.我在下面解释我的更改. 用于培训数据:此处 对于单词嵌入:这是手套的嵌入此处 关键配置:Keras 2.0.9,Scikit-Learn 0.19.1,Theano 0.9.0 上面链接中发布的原始代码采用3D形状输入,即(评论,句子,单词).注意机制不仅适 ..
发布时间:2020-05-17 19:27:04 Python

注意的LSTM

我正在尝试为堆叠的LSTM实现添加关注机制 https://github.com/salesforce/awd-lstm-lm 所有在线示例都使用了我不想使用的编码器-解码器体系结构(我必须使用注意力机制吗?). 基本上,我已经使用过def __init__(self, rnn_type, ntoken, ninp, nhid, nlayers, dropout=0.5, dropou ..

用来训练自我注意机制的东西是什么?

我一直在试图理解自我注意力,但是我发现的所有内容并不能很好地解释这个概念. 假设我们在NLP任务中使用了自注意力,所以我们的输入就是一个句子. 然后,自我注意力可以用来衡量句子中每个单词对每个其他单词的“重要性". 问题是我不了解如何衡量“重要性".重要的是什么? 训练自注意力算法中的权重的目标向量到底是什么? 解决方案 将具有潜在含义的语言连接起来称为基础.诸如“ ..