世界模型
作者:David Ha,Jürgen Schmidhuber摘要:我们探索构建流行强化学习环境的生成式神经网络模型。我们的世界模型可以以无监督的方式快速训练,以学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为代理的输入,我们可以训练一个非常紧凑和简单的策略来解决所需的任务。我们甚至可以在世界模型生成的自身幻觉梦境中完全训练我们的代理,并将该策略转移回实际环境。https://arx
·
作者:David Ha,Jürgen Schmidhuber摘要:我们探索构建流行强化学习环境的生成式神经网络模型。我们的世界模型可以以无监督的方式快速训练,以学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为代理的输入,我们可以训练一个非常紧凑和简单的策略来解决所需的任务。我们甚至可以在世界模型生成的自身幻觉梦境中完全训练我们的代理,并将该策略转移回实际环境。https://arxiv.org/abs/1803.10122
更多推荐

所有评论(0)