1、RL算法

1.1  基础理论算法

是所有 RL 算法的底层框架,定义了 RL 的核心学习范式,无工程直接落地性,但必须掌握。

  1. Monte-Carlo RL(MC,蒙特卡洛强化学习):基于完整轨迹回报的无模型学习,首次实现 “从经验中学习”,适用于短轨迹、无终止状态任务。

  2. Temporal-Difference RL(TD,时序差分学习):融合 MC 和动态规划,基于单步增量回报学习,是 RL 的核心框架,在线更新、无需完整轨迹。

  3. Sarsa (λ)/Q-Learning (λ)(资格迹 TD 学习):TD 的扩展,引入资格迹(Eligibility Trace),融合单步 TD 和多步 MC,平衡学习速度和稳定性,λ∈[0,1] 调节。

  4. Dynamic Programming(DP,动态规划):有模型 RL 的基础,基于环境模型做策略迭代 / 价值迭代,仅适用于小状态空间(如网格世界)。

  5. MDP Solver(马尔可夫决策过程求解器):含策略评估、策略改进、价值迭代,是所有 RL 算法的理论参照,无实际工程应用。

  6. POMDP Solver(部分可观测马尔可夫决策过程求解器):MDP 的扩展,解决状态部分观测问题,代表算法POMCP(蒙特卡洛树搜索 + POMDP),适用于传感器受限场景。

1.2 无模型价值基算法(离散动作核心)

仅适配离散动作空间,训练稳定、实现简单,是入门首选,核心优化动作价值函数 Q (s,a)

经典基础

  1. Q-Learning:离线策略 TD 算法,核心是 “异策略更新”,无需遵循当前策略选动作,是所有价值基算法的鼻祖。

  2. SARSA:在线策略 TD 算法,“同策略更新”(动作选择与更新一致),比 Q-Learning 更保守,适用于需规避风险的场景(如机器人避障)。

  3. Expected SARSA:SARSA 的改进,用动作期望回报替代单步采样回报,降低训练方差,稳定性优于 SARSA。

DQN 及全变种(深度价值基核心,工程落地主流)

  1. DQN(Deep Q-Network):深度 RL 里程碑,引入经验回放 + 目标网络,解决深度学习与 RL 结合的不稳定性,适配高维状态空间(如雅达利游戏)。

  2. Double DQN:解决 DQN 的Q 值过估计问题,用当前 Q 网络选动作、目标 Q 网络评价值,提升估计精度。

  3. Dueling DQN:将 Q 网络拆分为状态价值 V (s)优势函数 A (s,a),精准学习 “状态本身的价值”,适用于状态影响远大于动作的场景。

  4. Prioritized Experience Replay(PER-DQN):基于回报误差加权经验回放,优先学习 “高价值样本”,提升样本效率。

  5. Noisy DQN:引入噪声线性层替代 ε- 贪心探索,实现自适应探索,探索效率更高,适用于复杂探索任务。

  6. DQN with Dueling+Double+PER+NoisyNet:DQN 基础改进融合版,性能大幅提升。

  7. Rainbow:DQN终极改进版本,集成 Double/Dueling/PER/NoisyNet/ 多步 TD / 分布型 RL,是传统离散动作价值基算法的性能天花板。

  8. C51(Categorical DQN):分布型价值基算法,学习Q 值的概率分布而非标量,鲁棒性远高于传统 DQN,是分布型 RL 的基础。

  9. QR-DQN(Quantile Regression DQN):基于分位数回归的分布型 DQN,比 C51 更灵活,适配非高斯 Q 值分布。

1.3、无模型策略基算法(直接优化策略)

适配离散 / 连续动作空间,策略平滑,核心直接优化策略函数 π_θ(a|s),但原生训练方差高,多与 AC 结合落地。

19. REINFORCE:经典蒙特卡洛策略梯度算法,基于完整轨迹计算梯度,方差高、收敛慢,是策略基算法的鼻祖。

20. REINFORCE with Baseline:REINFORCE 的改进,引入基线函数(如 V (s)) 消除梯度均值偏移,大幅降低方差。

21. Stochastic Policy Gradient(SPG,随机策略梯度):TD 版策略梯度,在线更新、无需完整轨迹,比 REINFORCE 收敛快。

22. Deterministic Policy Gradient(DPG,确定性策略梯度):适用于连续动作空间,输出确定动作而非概率,样本效率远高于 SPG,是 DDPG 的基础。

23. TRPO(Trust Region Policy Optimization):通过信任域约束限制策略更新幅度,保证优化单调性,解决策略梯度 “更新过大导致发散” 问题,计算复杂度高。

24. PPO(Proximal Policy Optimization):目前工业界最主流 RL 算法,TRPO 的简化版,通过裁剪目标函数替代信任域,兼顾稳定性、效率、通用性,适配所有动作空间。

25. PPO-Clip:PPO 主流版本,通过裁剪优势函数实现策略约束,实现简单、训练稳定。

26. PPO-Penalty:PPO 的另一种实现,通过 KL 散度惩罚约束策略更新,适用于对策略平滑性要求高的场景。

1.4、Actor-Critic(AC)算法(融合价值 + 策略)

RL工程落地核心框架,适配所有动作空间,由 Actor(策略)+Critic(价值)组成,兼顾策略基的适配性和价值基的低方差,是目前绝大多数实际任务的首选。

经典基础 AC

  1. AC(Actor-Critic):基础框架,Actor 输出动作,Critic 评估 V (s),用 V (s) 作为基线降低策略梯度方差,是所有 AC 算法的鼻祖。

  2. Advantage AC(优势 Actor-Critic):用优势函数 A (s,a)=Q (s,a)-V (s) 替代 V (s) 评估,进一步降低方差,提升训练效率。

经典进阶 AC

  1. A2C(Synchronous Advantage Actor-Critic):同步多线程 AC,批量计算梯度,训练稳定、实现简单,是入门 AC 的首选。

  2. A3C(Asynchronous Advantage Actor-Critic):异步多线程 AC,多线程独立探索 + 参数异步更新,训练效率远高于 A2C,是分布式 RL 的基础。

  3. GAE(Generalized Advantage Estimation)非独立算法,AC 核心组件,融合多步优势估计,精准平衡偏差和方差,所有现代 AC 算法均基于 GAE。

连续动作专属 AC(工程主流)

  1. DDPG(Deep Deterministic Policy Gradient):结合 DPG 和 DQN,引入经验回放 + 目标网络,是首个落地的深度连续动作 AC 算法,适用于机器人控制、自动驾驶。

  2. TD3(Twin Delayed DDPG):DDPG 的终极改进版,引入双 Critic + 策略延迟更新 + 动作噪声正则,解决 DDPG 的过估计、训练震荡问题,连续动作经典算法。

  3. SAC(Soft Actor-Critic)最大熵 AC 核心算法,兼顾 “奖励最大化” 和 “策略熵最大化”,自适应探索,鲁棒性、样本效率远高于 DDPG/TD3,连续控制落地首选。

  4. SAC-v1/SAC-v2:SAC 的两个版本,v2 引入自动温度系数调整,无需手动调参,实用性更强。

  5. PPO-AC:广义 PPO 归为 AC 框架,Critic 学习 V (s),Actor 基于 GAE 优化,是目前离散 / 连续动作通用的最优 AC 算法

分布型 AC(前沿改进)

  1. QR-DQN AC:结合分位数回归的分布型 AC,学习 Q 值分布,鲁棒性更高。

  2. CAC(Categorical Actor-Critic):分布型 AC 的经典版本,基于 C51 的思想,适用于噪声较大的场景。

其他改进 AC

  1. D4PG(Distributed Distributional Deep Deterministic Policy Gradient):融合 DDPG + 分布型 RL + 分布式训练,样本效率和性能大幅提升,适用于大规模连续动作任务。

  2. PPO-FP(PPO with Fixed Point):PPO 的改进,基于不动点理论优化策略更新,收敛速度更快。

1.5、有模型(Model-Based)RL 算法(样本效率核心)

先学习环境模型 P (s'|s,a)+ 奖励模型 R (s,a),再基于模型规划,样本效率比无模型 RL 高 1-2 个数量级,适用于环境交互成本高的场景(如机器人实机、物理仿真)。

41. Dyna-Q:经典有模型 RL,融合 “无模型 Q-Learning + 模型模拟规划”,是有模型 RL 的入门算法。

42. Dyna-2:Dyna-Q 的改进,分离 “模型学习” 和 “策略学习”,提升规划效率。

43. MBPO(Model-Based Policy Optimization):目前主流有模型 RL 算法,用无模型 RL(SAC)优化模型生成的虚拟数据,兼顾样本效率和泛化性,连续控制首选。

44. PETS(Probabilistic Ensemble Trajectory Sampling):基于概率集成模型的有模型 RL,处理模型不确定性,鲁棒性高于 MBPO。

45. MuZero:DeepMind 经典算法,无模型 + 有模型融合巅峰,无需显式环境模型,通过动态规划 + 蒙特卡洛树搜索(MCTS) 自学习模型,适用于棋类、游戏、机器人。

46. AlphaGo/AlphaGo Zero:基于 MCTS + 有模型 RL,AlphaGo 融合人类棋谱,AlphaGo Zero 纯自博弈,是棋类 AI 的里程碑。

47. AlphaZero:AlphaGo Zero 的通用版本,适配所有完美信息博弈(围棋、国际象棋、将棋),无领域知识,纯自博弈学习。

48. World Models:基于变分自编码器(VAE)+LSTM学习环境模型,用简单策略在虚拟模型中训练,样本效率极高。

49. PILCO(Probabilistic Inference for Learning Control):基于高斯过程的有模型 RL,适用于高精度、小样本的机器人控制任务。

1.6 离线 / 批量强化学习(工业落地核心)

无需与环境实时在线交互,直接利用离线数据集(人类演示 / 历史交互)训练,无试错成本,是从 “实验室” 到 “工业界” 的关键算法,核心解决分布偏移问题

模仿学习(离线 RL 的重要分支,无奖励函数)

  1. BC(Behavior Cloning,行为克隆):经典模仿学习,监督学习拟合人类演示的 s→a 映射,实现简单、无探索,适用于有大量人类演示的场景。

  2. DAGGER(Dataset Aggregation):BC 的改进,迭代收集 “专家 + 智能体” 数据,解决 BC 的分布偏移,提升策略泛化性。

  3. GAIL(Generative Adversarial Imitation Learning,生成式对抗模仿学习):对抗式模仿学习,无需奖励函数,通过 GAN 让智能体策略逼近专家策略,性能优于 BC。

  4. FAIRL(Feasible Action Invariant RL):GAIL 的改进,解决 GAIL 的模式崩溃问题,探索更充分。

  5. AIRL(Adversarial Inverse RL):融合逆强化学习(IRL)和 GAIL,先学习专家的奖励函数,再用 RL 优化,适用于专家演示少的场景。

纯离线 RL(基于离线数据优化,有奖励函数)

  1. IQL(Implicit Q-Learning):目前主流离线价值基算法,基于 Q-Learning 的改进,通过隐式约束解决分布偏移,样本效率高,适配离散 / 连续动作。

  2. CQL(Conservative Q-Learning):保守 Q 学习,通过过估计 Q 值实现保守策略优化,避免选择离线数据中未出现的动作,是离线 RL 的经典算法。

  3. TD3+BC:离线连续动作主流算法,将 TD3 与 BC 结合,用 BC 约束策略,解决分布偏移,实现简单、性能稳定。

  4. SAC+BC:TD3+BC 的改进,基于 SAC 的最大熵特性,探索性更强,鲁棒性更高。

  5. AWAC(Advantage Weighted Actor-Critic):离线 AC 算法,用优势函数加权专家动作,提升策略向专家靠拢的速度。

1.7、多智能体强化学习(MARL,多主体决策)

适配多个智能体交互的场景,核心解决环境非平稳性信用分配问题,分为合作 / 竞争 / 混合三大类,主流框架为CTDE(中心化训练 / 去中心化执行)

60. MADDPG(Multi-Agent DDPG):经典多智能体 AC 算法,CTDE 框架,中心化 Critic 评估全局状态,去中心化 Actor 输出动作,适用于合作 / 混合场景。

61. MAPPO(Multi-Agent PPO):目前最主流 MARL 算法,PPO 的多智能体版本,CTDE 框架,兼顾性能、效率、通用性,适配所有 MARL 场景。

62. QMIX(Q-Mixing Network):合作型 MARL 价值基算法,通过混合网络将个体 Q 值融合为全局 Q 值,完美解决合作场景的信用分配问题。

63. QTRAN(Q-Transformation):QMIX 的改进,突破 QMIX 的单调性约束,适配更复杂的合作任务。

64. COMA(Counterfactual Multi-Agent Policy Gradient):合作型 MARL 策略基算法,通过反事实推理解决信用分配问题,适用于离散动作合作场景。

65. MAAC(Multi-Agent Actor-Critic):通用多智能体 AC 算法,支持多智能体间的通信,适用于需要协作通信的场景(如多机器人编队)。

66. VDN(Value-Decomposition Network):QMIX 的基础,将全局 Q 值分解为个体 Q 值的和,实现简单,适用于简单合作任务。67. Self-Play(自博弈):竞争型 MARL 核心范式,智能体与自身的不同版本对弈,实现策略自提升,是 AlphaGo/AlphaZero 的核心。68. League Training(联赛训练):自博弈的改进,多个不同策略的智能体组成联赛对弈,避免策略收敛到局部最优,适用于复杂竞争场景(如星际争霸)。

1.8、强化学习前沿拓展算法

覆盖分层、分布式、最大熵、鲁棒、多任务等前沿方向,解决传统 RL 的长程任务、大规模训练、鲁棒性差等问题。

分层强化学习(HRL,长程任务核心)

  1. MAXQ:经典分层 RL 算法,将任务拆分为子任务层级,每个子任务学习独立的策略,解决长程任务的信用分配问题。

  2. Feudal RL(FRL,封建 RL):将智能体分为高层管理者(选子任务)和低层执行者(执行动作),适用于复杂长程任务(如机器人自主导航)。

  3. HAC(Hierarchical Actor-Critic):分层 AC 算法,每层均为独立的 AC,高层输出子目标,低层输出动作,工程落地主流。

最大熵强化学习(探索 + 鲁棒核心)

  1. Soft Q-Learning(SQL):最大熵价值基算法,是 SAC 的基础,兼顾奖励和熵,探索性强。

  2. MPO(Maximum a Posteriori Policy Optimization):最大熵策略基算法,适用于对鲁棒性要求高的场景。

分布式 / 鲁棒 / 多任务 RL

  1. IMPALA(Importance Weighted Actor-Learner Architecture):分布式 RL 经典框架,Actor 异步探索 + Learner 同步训练,引入重要性加权解决样本分布问题,大规模训练首选。

  2. R2D2(Recurrent Experience Replay in Distributed RL):IMPALA 的改进,引入循环网络 + 经验回放,适用于部分可观测、长序列任务。

  3. Robust RL(鲁棒强化学习):针对环境噪声 / 模型偏差的改进,代表算法TRPO-Robust,适用于实际工业场景(环境存在不确定性)。

  4. Multi-Task RL(多任务强化学习):同时学习多个相关任务,实现知识迁移,代表算法MTPPO,适用于需要泛化到不同任务的场景(如机器人多动作执行)。

  5. Meta-RL(元强化学习):“学习如何学习”,快速适应新任务,代表算法MAML-RL,适用于少样本、快速适配的场景。

  6. Curiosity-Driven RL(好奇心驱动 RL):基于内在奖励(好奇心)实现自主探索,解决稀疏奖励问题,代表算法ICM(Intrinsic Curiosity Module)

1.9、LLM 对齐特化强化学习算法(大模型落地核心)

针对大语言模型(LLM)超大动作空间(token 级)、文本状态、偏好奖励做特化适配,是目前 AI 领域的研究热点,核心目标是实现 LLM 的人类对齐

80. RLHF(Reinforcement Learning from Human Feedback,从人类反馈中学习的 RL):LLM 对齐经典范式,SFT(有监督微调)+RM(奖励模型)+PPO三阶段,是 InstructGPT/GPT-4/LLaMA2 的核心对齐算法。

81. DPO(Direct Preference Optimization,直接偏好优化):目前LLM 对齐主流算法,无需训练 RM 和 PPO,直接通过偏好数据(优 / 劣回答对)优化 LLM,简化流程、训练稳定、效率高。82. GRPO(Generalized Reward Preference Optimization,广义奖励偏好优化):DPO/PPO 统一框架,支持多偏好、多奖励、混合反馈,适配复杂对齐需求。

83. IPO(Implicit Preference Optimization,隐式偏好优化):DPO 的改进,通过隐式约束实现更保守的优化,鲁棒性更高。

84. SDPO(Smooth Direct Preference Optimization,平滑 DPO):引入平滑项解决 DPO 的策略突变问题,提升生成文本的流畅性。

85. RLAIF(Reinforcement Learning from AI Feedback,从 AI 反馈中学习的 RL):RLHF 的轻量化变种,用大模型 AI 反馈替代人类反馈,大幅降低标注成本,实现规模化对齐。

86. Constitution AI(宪法 AI):Anthropic 提出的 RLAIF 变种,基于规则 / 宪法让 AI 自我评估、修正,实现安全对齐。

87. Self-Rewarding RL(自奖励 RL):LLM 对齐前沿,无需外部(人类 / AI)反馈,LLM自身生成奖励信号实现自对齐,是未来终极方向。

2、RL学习路径和资源

2.1 RL 算法学习路径

1. 入门学习(必学)

Q-Learning → SARSA → DQN → REINFORCE → AC → A2C → PPO → TD3 → SAC → MAPPO

2. 工程落地(按场景选)

  • 离散动作:PPO / Rainbow / DQN

  • 连续动作:PPO / SAC / TD3

  • 多智能体:MAPPO / MADDPG / QMIX

  • 工业离线场景:BC / CQL / IQL / TD3+BC

  • 环境交互成本高:MBPO / MuZero / Dyna-Q

  • LLM 对齐:DPO / GRPO / RLHF / RLAIF

3. 前沿研究(按需学)

分层 RL(HAC/MAXQ)→ 分布式 RL(IMPALA/R2D2)→ 元 RL(MAML-RL)→ 自奖励 RL → 鲁棒 RL

2.2  RL论文和代码

一、基础强化学习(RL)核心算法

论文名称

简介

论文地址

代码地址

Q-Learning

经典的无模型时序差分(TD)算法,基于价值迭代,是 DQN 的基础,核心是学习动作价值函数 Q(s,a)

https://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

OpenAI Gym 实现 经典实现

DQN (Deep Q-Network)

将深度学习与 Q-Learning 结合,引入经验回放和目标网络解决稳定性问题,是深度强化学习的里程碑

https://arxiv.org/pdf/1312.5602

OpenAI Baselines Stable Baselines3

Policy Gradient & REINFORCE

直接对策略函数 $\pi (a

s)$ 求导优化,是策略梯度方法的基础,解决连续动作空间问题

http://people.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf

PyTorch 实现

PPO (Proximal Policy Optimization)

目前最主流的强化学习算法,通过裁剪目标函数限制策略更新幅度,兼顾稳定性和样本效率,是 LLM 对齐的核心算法

https://arxiv.org/abs/1707.06347

OpenAI Spinning Up Stable Baselines3

TRPO (Trust Region Policy Optimization)

PPO 的前身,通过信任域限制策略更新,保证优化稳定性,但计算复杂度更高

https://arxiv.org/pdf/1502.05477

OpenAI Baselines

SAC (Soft Actor-Critic)

基于最大熵强化学习的离线算法,兼顾探索和收益,适合连续控制任务

https://arxiv.org/pdf/1801.01290

Stable Baselines3

DDPG (Deep Deterministic Policy Gradient)

针对连续动作空间的 Actor-Critic 算法,结合 DQN 的思想优化确定性策略

https://arxiv.org/pdf/1509.02971

Stable Baselines3

二、大语言模型对齐(RLHF/RLAIF/DPO)

论文名称

简介

论文地址

代码地址

RLHF (Deep Reinforcement Learning from Human Preferences)

首次提出从人类偏好中学习的强化学习框架,是 InstructGPT/GPT-4 对齐的核心方法

https://arxiv.org/pdf/1706.03741

OpenAI 原始实现(非官方)

InstructGPT

将 RLHF 落地到大语言模型,通过 SFT+RM+PPO 三阶段实现模型对齐,奠定 LLM 对齐范式

https://arxiv.org/pdf/2203.02155

HuggingFace TRL

DPO (Direct Preference Optimization)

无需训练奖励模型和 PPO,直接通过偏好数据优化语言模型,简化 RLHF 流程,效率更高

https://arxiv.org/pdf/2305.18290

HuggingFace TRL LLaMA Factory

GRPO (Generalized Reward Preference Optimization)

统一 DPO/PPO 框架,支持多偏好、多奖励场景,适配复杂对齐需求

https://arxiv.org/pdf/2402.03300

TRL GRPO Trainer

RLAIF (Reinforcement Learning from AI Feedback)

用 AI 反馈替代人类反馈,降低标注成本,是 RLHF 的轻量化替代方案

https://arxiv.org/pdf/2405.17220

OpenRLHF

Fine-Tuning Language Models from Human Preferences

早期 LLM 偏好对齐的探索,验证了 RLHF 在小模型上的可行性

https://arxiv.org/pdf/1909.08593

官方示例

三、多智能体强化学习(MARL)

论文名称

简介

论文地址

代码地址

MADDPG (Multi-Agent DDPG)

为多智能体场景设计的 Actor-Critic 算法,引入中心化训练、去中心化执行

https://arxiv.org/pdf/1706.02275

OpenAI Baselines

MAPPO (Multi-Agent PPO)

多智能体版本的 PPO,是目前 MARL 的主流算法,兼顾性能和易用性

https://arxiv.org/pdf/2103.01955

MAPPO 官方实现

QMIX (Q-Mixing Network)

基于价值分解的多智能体算法,解决信用分配问题,适合合作型任务

https://arxiv.org/pdf/1803.11485

PyMARL

四、强化学习工具库 / 框架

名称

简介

地址

Stable Baselines3 (SB3)

轻量级、易扩展的强化学习库,支持 PPO/DQN/SAC 等主流算法,适合新手

https://stable-baselines3.readthedocs.io/en/master/ GitHub: https://github.com/DLR-RM/stable-baselines3

RLlib

工业级强化学习库,支持分布式训练,适配大规模任务

https://docs.ray.io/en/latest/rllib/index.html GitHub: https://github.com/ray-project/ray

TRL (Transformer Reinforcement Learning)

专为大语言模型设计的 RL 库,支持 RLHF/DPO/GRPO 等对齐算法

https://github.com/huggingface/trl

OpenRLHF

开源的 RLHF 训练框架,支持分布式训练,适配大模型

https://openrlhf.readthedocs.io/en/latest/ GitHub: https://github.com/OpenRLHF/OpenRLHF

3、DPO

考模型,可以将其输出结果预先录制好,这样在训练时就不需要加载),算力开销更低,更易于落地实践。

4、免训练的效果优化技术

5、强化学习基础

6、策略优化算法

7、RLHF与RLAIF

8、逻辑推荐优化

9、综合实践和性能优化

参考文献

[1] Understanding Reference Policies in Direct Preference Optimization: https://arxiv.org/pdf/2407.13709

[2] Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study: https://arxiv.org/pdf/2404.10719v2

[3] Prefix-Tuning: https://arxiv.org/pdf/2101.00190

[4] P-Tuning: https://arxiv.org/pdf/2103.10385

[5] Prompt Tuning: https://arxiv.org/pdf/2104.08691

[6] P-Tuning v2: https://arxiv.org/pdf/2110.07602

[7] LoRA: https://arxiv.org/pdf/2106.09685

[8] AdaLoRA: https://arxiv.org/pdf/2303.10512

[9] PiSSA: https://arxiv.org/abs/2404.02948

[10] OLoRA: https://arxiv.org/pdf/2406.01775

[11] LoHa: https://arxiv.org/pdf/2108.06098

[12] LoKr: https://arxiv.org/pdf/2309.14859

[13] QLoRA: https://arxiv.org/abs/2305.14314

[14] LofQ: https://arxiv.org/pdf/2310.08659

[15] DoRA: https://arxiv.org/pdf/2402.09353

[16] Adapter Tuning: https://arxiv.org/pdf/1902.00751

[17] LLM Finetuning: https://arxiv.org/pdf/2402.17193

[18] DPO SFT: https://arxiv.org/pdf/2406.04879

[19] DEEPSEEK DPO: https://arxiv.org/pdf/2401.02954

[20] LLaMA Factory: https://github.com/hiyouga/LLaMA-Factory

[21] Qwen: https://huggingface.co/Qwen/Qwen2-0.5B-Instruct

[22] LIMA: https://arxiv.org/pdf/2305.11206

[23] InsTag: https://arxiv.org/pdf/2308.07074

[24] IFD: https://arxiv.org/pdf/2308.12032v5

[25] WizardLM: Empowering Large Language Models to Follow Complex Instructions: https://arxiv.org/pdf/2304.12244

[26] LESS: Selecting Influential Data for Targeted Instruction Tuning: https://arxiv.org/pdf/2402.04333

[27] DEITA: https://arxiv.org/pdf/2312.15685

[28] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model: https://arxiv.org/pdf/2405.04434

[29] Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?: https://arxiv.org/pdf/2405.05904

[30] Knowledge Verification to Nip Hallucination in the Bud: https://arxiv.org/pdf/2401.10768

[31] OpenAI, Parameter Space Noise for Exploration: https://arxiv.org/pdf/1706.01905

[32] Reinforcement Learning: An Introduction, 2nd Edition, Richard S. Sutton: http://incompleteideas.net/book/the-book-2nd.html

[33] MuZero: https://arxiv.org/pdf/1911.08265

[34] DPG: https://proceedings.mlr.press/v32/silver14.pdf

[35] DDPG: https://arxiv.org/pdf/1509.02971

[36] TD3: https://arxiv.org/pdf/1802.09477

[37] Dec-POMDP: https://arxiv.org/pdf/1301.3836

[38] MAPPO: https://arxiv.org/pdf/2103.01955

[39] QMIX: https://arxiv.org/pdf/1803.11485

[40] COMA: https://arxiv.org/pdf/1705.08926

[41] MADDPG: https://arxiv.org/pdf/1706.02275

[42] MAXQ: https://www.jair.org/index.php/jair/article/view/10266/24463

[43] Feudal Reinforcement Learning: https://www.cs.toronto.edu/~fritz/absps/dlh93.pdf

[44] Dyna-Q: http://www.incompleteideas.net/papers/sutton-90.pdf

[45] POMDP: Optimal control of Markov processes with incomplete state information, https://core.ac.uk/download/pdf/82498456.pdf

[46] DPO: https://arxiv.org/pdf/2305.18290

[47] AC 架构: http://www.derongliu.org/adp-cdrom/Barto1983.pdf

[48] SAC: https://arxiv.org/pdf/1801.01290

[49] A3C: https://arxiv.org/pdf/1602.01783

[50] GAE: https://arxiv.org/pdf/1506.02438

[51] TRPO: https://arxiv.org/pdf/1502.05477

[52] PPO: https://arxiv.org/abs/1707.06347

[53] John Schulman: https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/

[54] Deep reinforcement Learning from Human Preferences: https://arxiv.org/pdf/1706.03741

[55] Fine-Tuning Language Models from Human Preferences: https://arxiv.org/pdf/1909.08593

[56] InstructGPT: Training language models to follow instructions with human feedback: https://arxiv.org/pdf/2203.02155

[57] LLaMA2: https://arxiv.org/pdf/2307.09288

[58] LLaMA3: https://arxiv.org/abs/2407.21783

[59] Scaling Laws for Reward Model Overoptimization: https://arxiv.org/pdf/2210.10760

[60] TRL: https://github.com/huggingface/trl

[61] 吴恩达 IRL, Algorithms for Inverse Reinforcement Learning: https://ai.stanford.edu/~ang/papers/icml100-irl.pdf

[62] CAI: https://arxiv.org/pdf/2212.08073

[63] RLAIF-V: https://arxiv.org/pdf/2405.17220

[64] Claude's Constitution: https://www.anthropic.com/news/claudes-constitution

[65] RLlib: https://docs.ray.io/en/latest/rllib/index.html

[66] Stable Baselines3 (SB3) : https://stable-baselines3.readthedocs.io/en/master/

[67] OpenRLHF: https://openrlhf.readthedocs.io/en/latest/

[68] lilianweng: https://lilianweng.github.io/posts/2024-11-28-reward-hacking/

[69] SEAL:https://arxiv.org/abs/2408.10270

[70] Reward hacking: https://arxiv.org/abs/2201.03544

[71] Anthropic, Rejection Sampling: https://arxiv.org/pdf/2204.05862

[72] GRPO: https://arxiv.org/pdf/2402.03300

[73] OpenAI RBR: https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

[74] Contrastive Search: https://arxiv.org/pdf/2202.06417

[75] Lookahead Decoding: https://arxiv.org/pdf/2402.02057

[76] Phi-4: https://arxiv.org/pdf/2412.08905

[77] DoLa: https://arxiv.org/abs/2309.03883

[78] Transformers: https://huggingface.co/docs/transformers/index

[79] Prompt Engineering Guide: https://www.promptingguide.ai/

[80] OpenAI Prompt: https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-the-openai-api

[81] OpenAI Prompt: https://platform.openai.com/docs/guides/prompt-engineering/six-strategies-for-getting-better-results

[82] CoT: https://arxiv.org/pdf/2201.11903

[83] ToT: https://arxiv.org/pdf/2305.10601

[84] Auto-CoT: https://arxiv.org/pdf/2210.03493

[85] Self-Consistency with CoT: https://arxiv.org/pdf/2203.11171

[86] XoT: https://arxiv.org/pdf/2311.04254

[87] GoT: https://arxiv.org/pdf/2308.09687

[88] MoT: https://arxiv.org/pdf/2305.05181

[89] Multimodal CoT: https://arxiv.org/pdf/2302.00923

[90] VLM CoT: https://arxiv.org/pdf/2410.16198

[91] Zero-shot-CoT: https://arxiv.org/pdf/2205.11916

[92] langchain: https://python.langchain.com/docs/

[93] Contextual RAG: https://www.anthropic.com/news/contextual-retrieval

[94] RAGFlow: https://ragflow.io/

[95] TD: http://incompleteideas.net/papers/sutton-88-with-erratum.pdf

[96] HuggingFace PEFT: https://huggingface.co/docs/peft/index

[97] Byte Latent Transformer: https://arxiv.org/pdf/2412.09871

[98] OpenAI Scaling Law: https://arxiv.org/pdf/2001.08361

[99] DeepMind Chinchilla Scaling Law: https://arxiv.org/pdf/2203.15556

[100] OpenAI o1 Scaling Law: https://openai.com/index/learning-to-reason-with-llms/

[101] VLMEvalKit: https://github.com/open-compass/VLMEvalKit

[102] opencompass: https://github.com/open-compass/opencompass

[103] ollama: https://github.com/ollama/ollama

[104] mlc-llm: https://github.com/mlc-ai/mlc-llm

[105] llama.cpp: https://github.com/ggerganov/llama.cpp

[106] text-generation-inference: https://github.com/huggingface/text-generation-inference

[107] langgraph: https://github.com/langchain-ai/langgraph

[108] Qwen2.5: https://arxiv.org/pdf/2412.15115

[109] DQN: https://arxiv.org/pdf/1312.5602

[110] Q-learning: https://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

[111] Policy Gradient&REINFORCE: http://people.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf

[112] Policy Gradient Theorem: https://proceedings.neurips.cc/paper_files/paper/1999/file/464d828b85b0bed98e80ade0a5c43b0f-Paper.pdf

[113] HuggingFace: https://huggingface.co/

[114] Diverse Beam Search: https://arxiv.org/pdf/1610.02424

[115] Constrained Beam Search: https://arxiv.org/pdf/1612.00576

[116] Top-P: https://arxiv.org/pdf/1904.09751

[117] Top-K: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[118] Speculative Sampling: https://arxiv.org/pdf/2302.01318

[119] UCB: https://homes.di.unimi.it/~cesabian/Pubblicazioni/ml-02.pdf

[120] Rainbow: https://arxiv.org/pdf/1710.02298

[121] Prioritized Experience Replay: https://arxiv.org/pdf/1511.05952

[122] Dueling DQN: https://arxiv.org/pdf/1511.06581

[123] Double DQN: https://arxiv.org/pdf/1509.06461

[124] DQN + Target Network: https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf

[125] POSG: https://www.khoury.northeastern.edu/home/camato/publications/aaai-SS-04.pdf

[126] IQL: http://web.media.mit.edu/~cyinthiab/Readings/tan-MAS-reinfLlearn.pdf

[127] BC: https://proceedings.neurips.cc/paper/1988/file/812b4ba287f5ee0bc9d43bbf5bbe87fb-Paper.pdf

[128] GAIL: https://arxiv.org/pdf/1606.03476

[129] MCTS: https://www.davidsilver.uk/wp-content/uploads/2020/03/pomcp.pdf

[130] HRL: https://proceedings.neurips.cc/paper_files/paper/1997/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

[131] Distributional RL: https://arxiv.org/pdf/1707.06887

[132] Chatbot Arena: https://www.lmarena.ai/

[133] Teacher Forcing: https://gwern.net/doc/ai/nn/rnn/1989-williams-2.pdf

[134] GPT-1: https://cdn.openai.com/research-covers/language-understanding-unsupervised-language_understanding_paper.pdf

[135] Attention Is All You Need: https://arxiv.org/pdf/1706.03762

[136] Ilya Sutskever, seq2seq, LSTM: https://arxiv.org/pdf/1409.3215

[137] MoE, Switch Transformers: https://arxiv.org/pdf/2101.03961

[138] RoPE, 苏剑林: https://arxiv.org/pdf/2104.09864

[139] ResNet, 何恺明: https://arxiv.org/pdf/1512.03385

[140] DriveVLM, 清华, 理想汽车: https://arxiv.org/pdf/2402.12289

[141] ELMo: https://arxiv.org/pdf/1802.05365

[142] Generative Verifiers: https://arxiv.org/pdf/2408.15240

[143] rStar: https://arxiv.org/pdf/2408.06195

[144] Scaling LLM Test-Time Compute: https://arxiv.org/pdf/2408.03314v1

[145] LoRA: https://github.com/microsoft/LoRA

[146] GPT-3: https://arxiv.org/pdf/2005.14165

[147] RAG: https://arxiv.org/pdf/2005.11401

[148] Richard S. Sutton: http://incompleteideas.net/

[149] The Bitter Lesson: http://incompleteideas.net/IncIdeas/BitterLesson.html

[150] Yarn: https://arxiv.org/pdf/2309.00071

[151] Qwen2.5: https://arxiv.org/pdf/2412.15115

[152] DeepSeek-V3: https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

[153] Speculative Decoding: https://arxiv.org/pdf/2211.17192

[154] MCTS: https://inria.hal.science/inria-00116992/document

[155] UCT: http://ggp.stanford.edu/readings/uct.pdf

[156] AlphaGo: https://www.davidsilver.uk/wp-content/uploads/2020/03/unformatted_final_mastering_go.pdf

[157] About BoN: https://arxiv.org/pdf/2009.01325

[158] BOND: https://arxiv.org/pdf/2407.14622

[159] DVTS: https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

[160] A Survey on KD of LLM: https://arxiv.org/pdf/2402.13116

[161] Investigating Mysteries of CoT-Augmented Distillation: https://arxiv.org/pdf/2406.14511

[162] TTT: https://ekinakyurek.github.io/papers/ttt.pdf

[163] RESET: https://arxiv.org/pdf/2409.14586

[164] OpenAI, Let's Verify Step by Step: https://arxiv.org/pdf/2305.20050

[165] DeepMind, Google, OmegaPRM: https://arxiv.org/pdf/2406.06592

[166] DeepMind, PRM: https://arxiv.org/pdf/2211.14275

[167] Epoch AI, Will we run out of data: https://arxiv.org/pdf/2211.04325v2

[168] Epoch AI: https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[169] A Survey on Data Synthesis and Augmentation: https://arxiv.org/pdf/2410.12896

[170] OLMo 2: https://arxiv.org/pdf/2501.00656

[171] TÜLU 3: https://arxiv.org/pdf/2411.15124

[172] ReFT: https://arxiv.org/pdf/2401.08967

[173] Reinforcement Fine-Tuning: https://openai.com/12-days/

[174] rStar-Math: https://arxiv.org/pdf/2501.04519

[175] A* search: https://ai.stanford.edu/~nilsson/OnlinePubs-Nils/PublishedPapers/astar.pdf

[176] Meta-CoT: https://arxiv.org/pdf/2501.04682

[177] Best-first: https://arxiv.org/pdf/2407.01476

[178] AlphaZero: https://arxiv.org/pdf/1712.01815

[179] AlphaGo Zero: https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf

[180] Self-Rewarding: https://arxiv.org/pdf/2401.10020

[181] Meta, Meta-Rewarding: https://arxiv.org/pdf/2407.19594

[182] DeepMind, SCoRe: https://arxiv.org/pdf/2409.12917

[183] OpenAI , Deliberative Alignment: https://arxiv.org/pdf/2412.16339

[184] Distillation: https://arxiv.org/pdf/1503.02531

[185] DeepSeek-R1: https://arxiv.org/pdf/2501.12948

[186] Approximating KL Divergence: http://joschu.net/blog/kl-approx.html

[187] Li Fei-Fei, s1: https://arxiv.org/pdf/2501.19393

[188] BitNet b1.58: https://arxiv.org/pdf/2402.17764

[189] Unsloth: https://unsloth.ai/

[190] GRPO Trainer: https://huggingface.co/docs/trl/main/en/grpo_trainer

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐