Meta-RL之Learning to Reinforcement Learn

广泛认为2016年由JX Wang发表的Learning to Reinforcement Learn是Meta-RL最早提出的版本。本论文将Meta-Learning的思想用到了强化学习上，目标是使DRL方法可以快速迁移到新的tasks中。RNN可以处理监督学习的Meta-learning问题，作者将方法用到强化学习的Meta-learning中。作者在原有任务的强化学习(指的是在固定MDP的R

Ton10

1715人浏览 · 2021-09-15 22:35:42

Ton10 · 2021-09-15 22:35:42 发布

广泛认为2016年由JX Wang发表的Learning to Reinforcement Learn是Meta-RL最早提出的版本。

本论文将Meta-Learning的思想用到了强化学习上，目标是使DRL方法可以快速迁移到新的tasks中。RNN可以处理监督学习的Meta-learning问题，作者将方法用到强化学习的Meta-learning中。作者在原有任务的强化学习(指的是在固定MDP的RL任务中使用的标准RL算法)中加入第二个强化学习过程，该过程使用RNN模型自动学习不同任务的知识，从而使得新的tasks可以利用RNN中的知识加快训练。

作者发表这篇文章旨在阐明和验证Meta-RL的通用基础框架，是有待后续发展的。

Meta-RL需要注意的三个地方(by LiI’Log)：
在这里插入图片描述

参考列表：
①原文翻译
②Meta-RL之Learning to Learn Using Gradient Descent
③LiI’Log或其简要版中文

简介

RL的一大缺陷就是产生样本能力有限，也就是说Agent想要达到很不错的表现需要很高的采样效率，但遗憾的是现在的RL标准算法都无法保证能做到这一点。而Few-shot Learning正好可以解决这个问题，Few-shot Learning是Meta-learning在监督学习领域的应用，因此本文的目的就是将Meta-Learning应用到RL上来，名曰Deep Meta-reinforcement Learning，简称Meta-RL。
标准的Meta-Learning设置分为2级：Meta-Learner和Learner。元学习器用于调节和改善学习器，形成一套学习算法；学习器就是具体的分类回归算法，用于快速适应到新task上。
2001年Hochreiter提出了一种比较不错的Meta-Learning配置，通过加入RNN来实现Gradient Descent，从而产生一套学习算法。
遗憾的是，Hochreiter当时提出的Meta-Learning训练方式只是针对监督学习的，故本文作者将采用相同的方法在RL结构中实现，即Meta-RL。因此Meta-RL和Hochreiter提出的模型很相似。
Meta-RL的训练集由许多相关的环境组成。

主要内容

简而言之，Meta-RL做的事就是在多个相似不同的环境中进行训练得到学习算法，然后在新任务上快速适应。

核心思想

在这里插入图片描述
如上图所示，每一个MDP环境(task) $m$ 都有 $m\sim\mathcal{D}$ ，Meta-RL的训练步骤如下：

采样一个 $m_i\sim\mathcal{M}$ 。
重置LSTM中的隐藏状态。
让Agent和环境交互产生多条轨迹，并以此来更新模型。需要注意的是，在交互过程中，动作 $a_t$ 的输出取决于先前的轨迹—— $\mathcal{H}=\{x_0,a_0,r_1,\cdots x_{t-1},a_{t-1},r_t,x_t\}$ ，即当前episode的状态集 $\{x_s\}_{0\leq s\leq t}$ ，动作集 $\{a_s\}_{0\leq s\leq t}$ 以及回报集 $\{r_s\}_{1\leq s\leq t}$ 。
重复步骤1。

Note：

因为学习到的策略网络是历史依赖的，即需要过去的状态动作回报集，所以当众多MDP具有某种相似性的时候，那对于一个新的task，就比较容易去适应，这也就是为什么任务 $\tau\sim p(\tau)$ 的原因，即不能随意哪一个task来训练，而是要满足某种相似性(同一个分布下)。
由于涉及到历史状态的输入，故需要用的RNN(LSTM)，从这一点来看，Meta-RL和Hochreiter提出的基于LSTM的Meta-Learning有相似的思想。

在这里插入图片描述
上图就是作者针对7次实验设置的3种不同的策略网络结构。
Note：

网络的输入比标准的RL算法多了过去时刻的回报和动作。
enc是组合层，由卷积神经网络层和全连接层组成。“带循环箭头标志”的是循环神经网络。
在本论文中，作者采用标准的A3C(A2C)算法作为Learner。

总结

Deep meta-RL涉及三种必要的成分：

使用标准的DRL算法去训练RNN。
训练集涉及一系列相互关联的任务。
网络的输入比标准的RL算法增加了过去时间的动作和回报。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

知识图谱+大模型协同应用教程：从零基础入门到精通，推荐实战指南，一篇搞定！

2048 AI社区

大模型应用关键技术：实时性保障与多轮对话一致性实践

摘要：本文探讨大模型应用中的实时性和多轮对话一致性技术。实时性保障通过模型轻量化、推理引擎优化和上下文缓存实现，以ONNX Runtime量化为例，将7B参数的Llama 2模型推理延迟从2.8秒降至1.1秒。多轮对话一致性通过上下文压缩、对话状态跟踪(DST)和结构化Prompt设计维护，案例演示了基于Redis的智能点餐系统如何跟踪用户状态。两项技术分别提升用户体验和交互逻辑的连贯性，适用于

2048 AI社区

深入解析检索增强生成（RAG）技术

摘要：本文介绍了检索增强生成（RAG）技术及其核心模块。RAG通过结合信息检索与生成模型，提升文本生成的准确性和时效性。其核心模块包括：1）知识库构建（数据采集、预处理、向量存储）；2）检索系统（语义检索、重排序优化）；3）LLM交互层（Prompt设计、后置校验）。文中通过电商客服、医疗咨询、金融报告等案例，结合代码示例（如Sentence-BERT嵌入、FAISS检索、GPT-2生成），展示

2048 AI社区

所有评论(0)

查看更多评论

Ton10

@MR_kdcon

已为社区贡献42条内容