SAC：柔性动作-评价

基本概念SACSAC全称Soft Actor-Critic，中文名柔性动作-评价。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是off-policy的强化学习算法。SAC和TD3的网络结构类似，主网络都拥有1个Actor网络和2个Critic网络。但是，对于SAC来说，目标网络只有两个Critic网络，没有Actor网络。也就是说，SAC有1个Actor网络和4个Critic网

不负韶华ღ

6143人浏览 · 2022-04-24 10:51:07

不负韶华ღ · 2022-04-24 10:51:07 发布

基本概念

SAC

SAC全称Soft Actor-Critic，中文名柔性动作-评价。SAC算法解决的问题是离散动作空间和连续动作空间的强化学习问题，是off-policy的强化学习算法。

SAC和TD3的网络结构类似，主网络都拥有1个Actor网络和2个Critic网络。但是，对于SAC来说，目标网络只有两个Critic网络，没有Actor网络。也就是说，SAC有1个Actor网络和4个Critic网络。

Actor网络的输入为状态，输出为动作概率 $π(at,st)\pi(a_t,s_t)$ （对于离散动作空间而言）或者动作概率分布参数（对于连续动作空间而言）；
Critic网络的输入为状态，输出为状态的价值。其中V Critic网络的输出为 $v (s)$ ，代表状态价值对的估计； Q Critic 网络的输出为 $q (a, s)$ ，代表动作-状态对价值的估计。
在这里插入图片描述
Q Critic网络的更新过程：

从经验池buffer中采出的数据 $s_t,a_t,s_{t+1},r_{t+1})$ 进行Critic网络的更新，基于最优贝尔曼方程，用 $Ut(q)=rt+γv(st+1)U_t^{(q)}=r_t+\gamma v(s_{t+1})$ 作为状态 $s_t$ 的真实价值估计，而用实际采用的动作 $a_2$ 的 $q_i(s_t,a_2)$ 值 $i∈(0,1)i\in(0,1)$ 作为状态 $s_t$ 的预测价值估计，最后用MSEloss作为Loss函数，对神经网络 $Q_0$ ， $Q_1$ 进行训练。

MSELoss意味着对从经验池buffer中取一个batch的数据进行了求平均的操作。
在这里插入图片描述
V Critic网络的更新过程：

也是从经验池中拿出数据 $s_t,a_t,s_{t+1},r_{t+1})$ 进行V Critic网络的更新，用V Critic网络的输出作为预测值，用含熵的式子进行状态价值估计，即下式作为V Critic网络输出的真实值：
在这里插入图片描述
最后用MSEloss作为Loss函数，对神经网络 $V$ 进行训练。

Actor网络的更新过程：

对Actor网络训练的loss稍微有些复杂，其表达式为：

在这里插入图片描述
$α\alpha$ 是熵的奖励系数，它决定熵 $lnπ(at+1∣st;θ)ln\pi(a_{t+1}|s_t;\theta)$ 的重要性，越大越重要。 $B$ 为经验池buffer，即求Loss的时候还需要对经验池中取出的样本取平均。这样能够体现取出的样本平均意义下的好坏。

注意： $a_t'$ 并不是在buffer中取出的数据 $s_t,a_t,s_{t+1},r_{t+1})$ 中的 $a_t$ ，而是重新用Actor网络 $π\pi$ 预测的所有可能的动作，因此对于离散动作空间，常有以下的等价计算方法：
在这里插入图片描述
SAC算法的伪代码如下图所示：

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【2026_MCM美赛】问题F：是否要发展全人类人工智能（或者如何发展全⼈类人工智能）？这是⼀个问题！（思路、代码、论文持续更新中）

Manygraduates?短短⼏年间，⽣成式⼈⼯智能（Gen-AI）已从最初功能有限、仅供少数早期⽤⼾使⽤的⼯具，发展成为融⼊我们⽇常⽣活、强⼤且不可或缺的资源。研究表明，随着时间的推移，⽣成式⼈⼯智能可能会对未来的⼯作产⽣深远影响。例如，在某些领域，⽣成式⼈⼯智能可能会取代⼈类（或⼤幅减轻⼈类的⼯作量），⽽在其他领域，它可能不会受到太⼤影响，甚⾄可能促进其发展。在这个问题中，你将探讨各类⾼等教

2048 AI社区

氛围编程（Vibe Coding）全解析：AI驱动的编程范式革命与工程实践指南

结合Karpathy的原始定义与行业实践，氛围编程可被精准描述为：依托大语言模型与AI原生开发工具，通过自然语言（或语音）交互传递开发意图，由AI自动完成代码生成、优化与调试，开发者以需求引导者、结果验证者的身份，通过多轮迭代实现功能落地的新型编程范式。核心载体是AI协同工具链：并非单纯依赖通用LLM，而是需要深度集成AI的IDE（如Cursor）、智能代理（如Replit Agent）等工具，实

2048 AI社区

A股股票分析软件（开源/GitHub）Star数量Top项目

GitHub上支持A股分析的开源项目主要分为三类：量化交易框架、AI分析工具和数据获取工具。最受欢迎的项目包括OpenBB（50k+ Star，多市场金融数据平台）、vn.py（23k+ Star，国产量化交易框架）、Qlib（15k+ Star，微软AI量化平台）、Superalgos（12k+ Star，可视化策略工具）和Backtrader（10k+ Star，轻量回测引擎）。这些项目覆盖了