reinforcement-learning 第3页 - IT屋-程序员软件开发技术分享社区

Keras模型:RL代理的输入形状尺寸错误

我的目标是开发一个 DQN代理，它将根据特定的策略/政策选择其行动.我以前曾在OpenAi体育馆环境中工作，但现在我想创建自己的RL环境. 在此阶段，代理要么选择随机动作，要么根据深度神经网络(在 DQN 类中定义)给出的预测选择其动作. . 到目前为止，我已经设置了神经网络模型和我的环境. NN将接收状态作为其输入.这些状态表示从9.5到10.5(9.5、9.6，...，10.4、 ..

发布时间：2021-02-14 20:42:22 python machine-learning keras reinforcement-learning valueerror AI人工智能

TypeError:len对于符号张量没有很好的定义. (activation_3/Identity:0)请致电`x.shape`而不是`len(x)`以获得形状信息

我正在尝试在一项openAI体育馆游戏中实现DQL模型.但这给了我以下错误. TypeError:对于符号张量，len定义不正确. (activation_3/Identity:0)请致电x.shape而不是len(x) 以获得形状信息. 创建体育馆环境: ENV_NAME = 'CartPole-v0' env = gym.make(ENV_NAME) np.random.s ..

发布时间：2021-02-14 20:28:09 python tensorflow keras reinforcement-learning keras-rl Python

运行Keras模型以在多线程中进行预测

类似于这个问题一种异步强化学习算法，需要在多个线程中运行模型预测才能更快地获取训练数据.我的代码基于GitHub上的 DDPG-keras ，其神经网络构建于凯拉斯& Tensorflow.我的代码片段如下所示: 异步线程的创建和加入: for roundNo in xrange(self.param['max_round']): AgentPool = [AgentThrea ..

发布时间：2021-02-14 20:24:35 python tensorflow keras thread-safety reinforcement-learning Python

tensorflow:为什么collect_nd是可区分的?

我正在研究一个tensorflow网络，该网络为 CartPole 开放式实施强化学习-ai环境网络实施似然比方法用于策略梯度代理. 问题是，使用gather_nd op可以定义策略丢失！在这里，看看: .... self.y = tf.nn.softmax(tf.matmul(self.W3,self.h2) + self.b3,dim=0) self ..

发布时间：2020-11-20 01:20:55 tensorflow gradient reinforcement-learning 其他开发

使用强化学习解决分类问题

我可以在分类中使用强化学习吗？如人类活动识别？解决方案有两种类型的反馈。一种是评价性，用于强化学习方法，另一种是说明性，用于主要用于分类问题的监督学习。使用监督学习时，将基于训练数据集中提供的正确标签的信息来调整神经网络的权重。因此，在选择错误的类别时，损失会增加，权重也会随之调整，因此对于这种输入，就不会再次选择该错误的类别。但是，在强化学习中，系统探索所有可能的动作 ..

发布时间：2020-10-19 21:45:55 tensorflow deep-learning reinforcement-learning 其他开发

具有少量数据集（语料库）的命名实体识别

我想开发一种波斯语命名实体识别系统，但我们有一个带有NER标签的小型语料库，用于训练ans测试。也许将来我们会有更好更好的语料库。顺便说一句，我需要一种解决方案，只要添加新数据而无需将新数据与旧数据合并并从头进行培训，就可以逐渐获得更好的性能。有什么解决方案吗？解决方案是。在您的帮助下：这是一项正在进行的工作。这是JS，“没有训练...” 请参阅 https://git ..

发布时间：2020-10-09 00:12:13 continuous-deployment named-entity-recognition reinforcement-learning named-entity-extraction 其他开发

pytoch RuntimeError:尺寸超出范围(预计在[-1，0]范围内，但得到1

我正在尝试在演员和评论家中使用LSTM来训练演员评论模型. 我对这一切还是陌生的，不明白为什么"RuntimeError: Dimension out of range (expected to be in range of [-1, 0], but got 1)"会来. 我正在从演员传播并出现错误下面是我的代码和错误消息.我正在使用pytorch版本0.4.1 有人可以帮忙检 ..

发布时间：2020-09-07 19:18:53 python pytorch artificial-intelligence reinforcement-learning AI人工智能

Q学习和SARSA有什么区别?

尽管我知道 SARSA 处于策略状态，而 Q学习是不合政策的，在查看它们的公式时(对我而言)很难看到这两种算法之间的任何区别. 根据这本书《强化学习:简介》 (由Sutton和Barto撰写).在SARSA算法中，给定一个策略，相应的动作值函数Q(在状态s和动作a，在时间步长t)，即Q(s t ，a t )，可以进行如下更新 Q(s t ，a t )= Q(s t ，a t )+α * ..

发布时间：2020-09-07 18:53:18 artificial-intelligence reinforcement-learning q-learning sarsa AI人工智能

为什么要限制连续动作?

在深度强化学习中，使用连续的动作空间，为什么似乎通常的做法是在特工执行之前紧紧抓住动作? 示例: OpenAI健身山地车 https://github.com/openai/健身房/blob/master/gym/envs/classic_control/continuous_mountain_car.py#L57 Unity 3DBall 信息不会丢失吗?就像模型为速度(运动) ..

发布时间：2020-07-24 09:56:29 deep-learning reinforcement-learning continuous ml-agent 其他开发

'UnityEnvironment'对象没有属性'behavior_spec'

我关注了这个链接到doc 创建自己的环境. 但是当我运行此 from mlagents_envs.environment import UnityEnvironment env = UnityEnvironment(file_name="v1-ball-cube-game.x86_64") env.reset() behavior_names = env.behavior_spec ..

发布时间：2020-07-12 23:41:07 python unity3d machine-learning reinforcement-learning ml-agent AI人工智能

python装箱数据openAI Gym

我正在尝试创建一个自定义环境，以使用openAI健身房进行强化学习.我需要表示环境在名为observation_space的变量中将看到的所有可能的值.代理可以使用以下三种可能的操作，称为action_space 更具体地说，observation_space是一个温度传感器，它将看到50到150度的可能范围，我想我可以用以下方式表示所有这些: 编辑，我的action_space nu ..

发布时间：2020-05-18 22:15:32 python numpy reinforcement-learning openai-gym Python

神经网络中的Q学习不是``学习''

我用C ++和一个带有一个隐藏层的MLP制作了一个简单的Tron游戏.我已经在该神经网络中实现了Q学习，但是，这并不会导致代理随着时间的推移赢得更多的游戏(甚至在一百万场游戏之后).我将尝试以文字解释我的所作所为，希望有人可以发现一个错误，这可能会导致此问题. 在每个州都有四种可能的移动方式(北，东，南，西)，奖励在游戏结束时(-1为损失，0为平局，1为胜利). 我初始化4个MLP，每 ..

发布时间：2020-05-17 19:28:44 c++ neural-network reinforcement-learning C/C++开发

神经网络与时差学习

我阅读了一些有关时差学习的论文和讲座(有些与神经网络有关，例如TD-Gammon的Sutton教程)，但是我很难理解方程式，这使我无法理解问题. -预测值V_t来自哪里?然后，我们如何获得V_(t + 1)? -当TD与神经网络一起使用时，到底传播了什么?也就是说，使用TD时返回的错误从何而来? 解决方案后向视图和前向视图可能会造成混淆，但是当您处理诸如游戏程序之类的简单事物 ..

发布时间：2020-05-17 19:22:23 artificial-intelligence neural-network backpropagation reinforcement-learning temporal-difference AI人工智能

如何在Tensorflow中为Async n-step DQNetwork更新累积和应用梯度?

我正在尝试实施用于深度强化学习的异步方法，其中一个步骤要求在不同的步骤上累积梯度，然后应用它. 在张量流中实现此目标的最佳方法是什么? 我到目前为止已经积累了梯度，但我认为这不是实现它的最快方法(从tensorflow到python以及从python返回的大量传输). 欢迎任何建议. 这是我的玩具神经网络代码.它不会建模或计算任何东西，而只是执行我要使用的操作. import tensorf ..

发布时间：2020-05-17 19:21:58 neural-network tensorflow reinforcement-learning 其他开发

神经网络如何使用遗传算法和反向传播玩游戏?

我遇到了这是YouTube上有关遗传算法的有趣视频. 正如您在视频中看到的那样，机器人学会了战斗. 现在，我学习神经网络已有一段时间了，我想开始学习遗传算法. 您如何结合遗传算法和神经网络来做到这一点? 而且，在这种情况下，您如何知道用于反向传播，更新权重和训练网络的错误呢?您还如何看待视频中的程序计算其适应度函数?我想视频中的程序肯定会发生突变，但是交叉呢? 谢谢！ ..

发布时间：2020-05-17 19:16:10 neural-network genetic-algorithm reinforcement-learning 其他开发

Tensorflow和多处理:通过会话

我最近一直在从事一个使用神经网络进行虚拟机器人控制的项目.我使用tensorflow对其进行了编码，并且运行平稳.到目前为止，我使用顺序仿真来评估神经网络的性能，但是，我想并行运行多个仿真，以减少获取数据所需的时间. 为此，我要导入python的multiprocessing包.最初，我将sess变量(sess=tf.Session())传递给将运行模拟的函数.但是，一旦我找到任何使用此se ..

发布时间：2020-05-13 19:27:33 python parallel-processing multiprocessing tensorflow reinforcement-learning Python

关于矩阵的Tensorflow梯度

仅出于上下文考虑，我正在尝试使用Tensorflow实现梯度下降算法. 我有一个矩阵X [ x1 x2 x3 x4 ] [ x5 x6 x7 x8 ] 我将其乘以某些特征向量Y以获得Z [ y1 ] Z = X [ y2 ] = [ z1 ] [ y3 ] [ z2 ] [ y4 ] 然后我将Z通过softmax函数放置，并获取 ..

发布时间：2020-05-07 19:12:11 python matrix tensorflow gradient-descent reinforcement-learning Python

在强化学习中设定与状态有关的动作

人们如何处理不同州的法律行为不同的问题?在我的案例中，我总共有大约10个诉讼，法律诉讼并不重叠，这意味着在某些州中，相同的3个州始终是合法的，而在其他类型的州中这些州从不合法. 我也想知道，如果法律行动重叠，解决方案是否会有所不同. 对于Q学习(我的网络为我提供状态/动作对的值)，我在想，也许我在构建目标值时可能要谨慎选择哪个Q值. (即，我没有选择最高限额，而是在法律诉讼中选择了最高 ..

发布时间：2020-05-04 10:03:23 machine-learning reinforcement-learning q-learning AI人工智能

q学习计算中的大量状态

我通过q-learning实现了3x3 OX游戏(它在AI vs AI和AI vs Human上都可以完美运行)，但是我无法进一步前进到4x4 OX游戏，因为它将耗尽我所有的PC内存并崩溃. 这是我当前的问题: 大规模访问冲突? 据我了解，一个3x3的OX游戏共有3(空格，白色，黑色)^ 9 = 19683个可能的状态. (相同模式的不同角度仍算在内) 对于4x4 OX游戏，总状 ..

发布时间：2020-05-04 09:52:40 c++ machine-learning reinforcement-learning AI人工智能

Q学习代理的学习率

学习率如何影响收敛率和收敛本身的问题. 如果学习速率恒定，那么Q函数会收敛到最佳导通，还是学习速率一定会衰减以保证收敛? 解决方案学习率说明了朝解决方案迈进的步伐. 它不应太大，因为它可能围绕最小值不断振荡，并且不应太小，否则将花费很多时间和迭代次数以达到最小值. 之所以建议在学习率上使用衰减，是因为最初，当我们处于解决方案空间中的完全随机点时，我们需要朝着解决方案大步前进， ..

发布时间：2020-05-04 09:47:27 machine-learning reinforcement-learning q-learning AI人工智能

reinforcement-learning相关内容