reinforcement-learning相关内容

Keras模型:RL代理的输入形状尺寸错误

我的目标是开发一个 DQN代理 ,它将根据特定的策略/政策选择其行动.我以前曾在OpenAi体育馆环境中工作,但现在我想创建自己的RL环境. 在此阶段,代理要么选择随机动作,要么根据深度神经网络(在 DQN 类中定义)给出的预测选择其动作. . 到目前为止,我已经设置了神经网络模型和我的环境. NN将接收状态作为其输入.这些状态表示从9.5到10.5(9.5、9.6,...,10.4、 ..

TypeError:len对于符号张量没有很好的定义. (activation_3/Identity:0)请致电`x.shape`而不是`len(x)`以获得形状信息

我正在尝试在一项openAI体育馆游戏中实现DQL模型.但这给了我以下错误. TypeError:对于符号张量,len定义不正确. (activation_3/Identity:0)请致电x.shape而不是len(x) 以获得形状信息. 创建体育馆环境: ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.s ..
发布时间:2021-02-14 20:28:09 Python

运行Keras模型以在多线程中进行预测

类似于这个问题一种异步强化学习算法,需要在多个线程中运行模型预测才能更快地获取训练数据.我的代码基于GitHub上的 DDPG-keras ,其神经网络构建于凯拉斯& Tensorflow.我的代码片段如下所示: 异步线程的创建和加入: for roundNo in xrange(self.param['max_round']): AgentPool = [AgentThrea ..
发布时间:2021-02-14 20:24:35 Python

使用强化学习解决分类问题

我可以在分类中使用强化学习吗?如人类活动识别? 解决方案 有两种类型的反馈。一种是评价性,用于强化学习方法,另一种是说明性,用于主要用于分类问题的监督学习。 使用监督学习时,将基于训练数据集中提供的正确标签的信息来调整神经网络的权重。因此,在选择错误的类别时,损失会增加,权重也会随之调整,因此对于这种输入,就不会再次选择该错误的类别。 但是,在强化学习中,系统探索所有可能的动作 ..
发布时间:2020-10-19 21:45:55 其他开发

具有少量数据集(语料库)的命名实体识别

我想开发一种波斯语命名实体识别系统,但我们有一个带有NER标签的小型语料库,用于训练ans测试。也许将来我们会有更好更好的语料库。 顺便说一句,我需要一种解决方案,只要添加新数据而无需将新数据与旧数据合并并从头进行培训,就可以逐渐获得更好的性能。 有什么解决方案吗? 解决方案 是。在您的帮助下:这是一项正在进行的工作。这是JS,“没有训练...” 请参阅 https://git ..

pytoch RuntimeError:尺寸超出范围(预计在[-1,0]范围内,但得到1

我正在尝试在演员和评论家中使用LSTM来训练演员评论模型. 我对这一切还是陌生的,不明白为什么"RuntimeError: Dimension out of range (expected to be in range of [-1, 0], but got 1)"会来. 我正在从演员传播并出现错误 下面是我的代码和错误消息.我正在使用pytorch版本0.4.1 有人可以帮忙检 ..

Q学习和SARSA有什么区别?

尽管我知道 SARSA 处于策略状态,而 Q学习是不合政策的,在查看它们的公式时(对我而言)很难看到这两种算法之间的任何区别. 根据这本书《强化学习:简介》 (由Sutton和Barto撰写).在SARSA算法中,给定一个策略,相应的动作值函数Q(在状态s和动作a,在时间步长t),即Q(s t ,a t ),可以进行如下更新 Q(s t ,a t )= Q(s t ,a t )+α * ..

python装箱数据openAI Gym

我正在尝试创建一个自定义环境,以使用openAI健身房进行强化学习.我需要表示环境在名为observation_space的变量中将看到的所有可能的值.代理可以使用以下三种可能的操作,称为action_space 更具体地说,observation_space是一个温度传感器,它将看到50到150度的可能范围,我想我可以用以下方式表示所有这些: 编辑,我的action_space nu ..
发布时间:2020-05-18 22:15:32 Python

神经网络中的Q学习不是``学习''

我用C ++和一个带有一个隐藏层的MLP制作了一个简单的Tron游戏.我已经在该神经网络中实现了Q学习,但是,这并不会导致代理随着时间的推移赢得更多的游戏(甚至在一百万场游戏之后).我将尝试以文字解释我的所作所为,希望有人可以发现一个错误,这可能会导致此问题. 在每个州都有四种可能的移动方式(北,东,南,西),奖励在游戏结束时(-1为损失,0为平局,1为胜利). 我初始化4个MLP,每 ..
发布时间:2020-05-17 19:28:44 C/C++开发

神经网络与时差学习

我阅读了一些有关时差学习的论文和讲座(有些与神经网络有关,例如TD-Gammon的Sutton教程),但是我很难理解方程式,这使我无法理解问题. -预测值V_t来自哪里?然后,我们如何获得V_(t + 1)? -当TD与神经网络一起使用时,到底传播了什么?也就是说,使用TD时返回的错误从何而来? 解决方案 后向视图和前向视图可能会造成混淆,但是当您处理诸如游戏程序之类的简单事物 ..

如何在Tensorflow中为Async n-step DQNetwork更新累积和应用梯度?

我正在尝试实施用于深度强化学习的异步方法,其中一个步骤要求在不同的步骤上累积梯度,然后应用它. 在张量流中实现此目标的最佳方法是什么? 我到目前为止已经积累了梯度,但我认为这不是实现它的最快方法(从tensorflow到python以及从python返回的大量传输). 欢迎任何建议. 这是我的玩具神经网络代码.它不会建模或计算任何东西,而只是执行我要使用的操作. import tensorf ..
发布时间:2020-05-17 19:21:58 其他开发

神经网络如何使用遗传算法和反向传播玩游戏?

我遇到了这是YouTube上有关遗传算法的有趣视频. 正如您在视频中看到的那样,机器人学会了战斗. 现在,我学习神经网络已有一段时间了,我想开始学习遗传算法. 您如何结合遗传算法和神经网络来做到这一点? 而且,在这种情况下,您如何知道用于反向传播,更新权重和训练网络的错误呢?您还如何看待视频中的程序计算其适应度函数?我想视频中的程序肯定会发生突变,但是交叉呢? 谢谢! ..

Tensorflow和多处理:通过会话

我最近一直在从事一个使用神经网络进行虚拟机器人控制的项目.我使用tensorflow对其进行了编码,并且运行平稳.到目前为止,我使用顺序仿真来评估神经网络的性能,但是,我想并行运行多个仿真,以减少获取数据所需的时间. 为此,我要导入python的multiprocessing包.最初,我将sess变量(sess=tf.Session())传递给将运行模拟的函数.但是,一旦我找到任何使用此se ..

在强化学习中设定与状态有关的动作

人们如何处理不同州的法律行为不同的问题?在我的案例中,我总共有大约10个诉讼,法律诉讼并不重叠,这意味着在某些州中,相同的3个州始终是合法的,而在其他类型的州中这些州从不合法. 我也想知道,如果法律行动重叠,解决方案是否会有所不同. 对于Q学习(我的网络为我提供状态/动作对的值),我在想,也许我在构建目标值时可能要谨慎选择哪个Q值. (即,我没有选择最高限额,而是在法律诉讼中选择了最高 ..

q学习计算中的大量状态

我通过q-learning实现了3x3 OX游戏(它在AI vs AI和AI vs Human上都可以完美运行),但是我无法进一步前进到4x4 OX游戏,因为它将耗尽我所有的PC内存并崩溃. 这是我当前的问题: 大规模访问冲突? 据我了解,一个3x3的OX游戏共有3(空格,白色,黑色)^ 9 = 19683个可能的状态. (相同模式的不同角度仍算在内) 对于4x4 OX游戏,总状 ..
发布时间:2020-05-04 09:52:40 AI人工智能

Q学习代理的学习率

学习率如何影响收敛率和收敛本身的问题. 如果学习速率恒定,那么Q函数会收敛到最佳导通,还是学习速率一定会衰减以保证收敛? 解决方案 学习率说明了朝解决方案迈进的步伐. 它不应太大,因为它可能围绕最小值不断振荡,并且不应太小,否则将花费很多时间和迭代次数以达到最小值. 之所以建议在学习率上使用衰减,是因为最初,当我们处于解决方案空间中的完全随机点时,我们需要朝着解决方案大步前进, ..