Section 00: 强化学习基础与 MDP
马尔可夫决策过程、状态-动作-奖励、折扣回报、探索与利用
强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一(监督学习、无监督学习、强化学习)。核心思想是智能体(Agent)通过与环境(Environment)交互,根据获得的奖励信号(Reward)学习最优策略(Policy)。
与监督学习不同,RL 没有明确的"正确答案"标签——智能体必须通过试错(trial and error)自行发现什么行为能带来最大长期收益。这使得 RL 特别适合序列决策问题:下棋、对话生成、机器人控制、LLM 对齐等。
马尔可夫决策过程 (MDP)
RL 的数学框架是马尔可夫决策过程,定义为五元组 (S, A, P, R, γ):
S: 状态空间(State Space)
A: 动作空间(Action Space)
P(s'|s,a): 状态转移概率
R(s,a,s'): 奖励函数
γ ∈ [0,1]: 折扣因子
马尔可夫性质:下一个状态只依赖于当前状态和动作,与历史无关:P(s_{t+1}|s_t, a_t) = P(s_{t+1}|s_0,...,s_t, a_0,...,a_t)。在 LLM 场景中,"状态"是目前为止生成的所有 token,"动作"是下一个 token 的选择。
核心概念
| 概念 | 定义 | LLM 中的对应 |
|---|---|---|
| 策略 π(a|s) | 在状态 s 下选择动作 a 的概率分布 | LLM 的 next-token 概率分布 |
| 状态价值 V^π(s) | 从状态 s 出发,遵循策略 π 的期望累计回报 | 从当前生成位置起的预期回答质量 |
| 动作价值 Q^π(s,a) | 在 s 执行 a 后遵循 π 的期望累计回报 | 选择某个 token 后预期的回答质量 |
| 优势函数 A^π(s,a) | Q^π(s,a) - V^π(s),衡量动作 a 比平均好多少 | 该 token 比平均选择好多少 |
| 折扣回报 G_t | Σ_{k=0}^∞ γ^k r_{t+k+1} | 整个回答的加权质量评分 |
V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a) [R(s,a,s') + γ V^π(s')]
当前状态的价值 = 即时奖励 + 折扣后的下一状态价值
探索与利用(Exploration vs Exploitation)
这是 RL 的核心困境:利用(Exploitation)选择当前已知最优动作以获得即时收益;探索(Exploration)尝试新动作以发现可能更好的策略。
在 LLM 训练中,这体现为:利用 = 生成高奖励的安全回答;探索 = 尝试新的表达方式,可能发现更好的回答策略。KL 散度约束(限制新策略偏离参考模型的程度)本质上就是在控制探索的幅度。
Section 01: 经典 RL 算法演进
从 Q-Learning 到 Actor-Critic — 理解现代 LLM RL 的算法基石
现代 LLM 中使用的 PPO、GRPO 等算法并非凭空出现,而是 RL 领域几十年发展的结晶。理解经典算法有助于深入理解当代技术的设计动机。
Value-Based 方法
Q-Learning(1989)是最经典的无模型 RL 算法,直接学习 Q(s,a) 函数,通过贪婪策略选取最优动作:
α: 学习率, γ: 折扣因子, max_{a'}: 选下一状态最优动作
Deep Q-Network (DQN, 2015):DeepMind 用神经网络逼近 Q 函数,在 Atari 游戏上达到超人水平。关键创新:Experience Replay(经验回放池打破时序相关性)和 Target Network(目标网络稳定训练)。
Policy-Based 方法
REINFORCE(1992)直接优化策略参数 θ,使期望回报最大化:
策略梯度定理:沿着高回报轨迹的方向更新策略
REINFORCE 的直觉:如果一个动作序列获得了高回报 G_t,就增加这些动作的概率;反之就降低。问题是高方差——同一策略生成的不同轨迹回报差异极大,导致梯度估计不稳定。
Actor-Critic 方法
Actor-Critic 结合了 Value-Based 和 Policy-Based 的优势:
| 组件 | 角色 | 学习内容 | 在 LLM RL 中 |
|---|---|---|---|
| Actor(演员) | 决定做什么 | 策略 π_θ(a|s) | LLM 本身(生成 token) |
| Critic(评论家) | 评估做得好不好 | 价值函数 V_φ(s) | 价值网络(评估生成质量) |
Critic 更新:min_φ E [(V_φ(s) - G_t)²]
优势函数 A(s,a) = Q(s,a) - V(s) 由 Critic 估计,大幅降低方差
关键改进——GAE(Generalized Advantage Estimation):
其中 δ_t = r_t + γV(s_{t+1}) - V(s_t)(TD 残差)
λ 控制偏差-方差权衡:λ=0 低方差高偏差,λ=1 高方差低偏差
RL 算法演进时间线
Section 02: Policy Gradient 家族
REINFORCE → TRPO → PPO — 从不稳定到可控的策略优化之路
Policy Gradient(策略梯度)方法是现代 LLM RL 的基础。其核心思想简洁而优雅:直接参数化策略函数 π_θ,通过梯度上升最大化期望回报。
策略梯度定理
TRPO(Trust Region Policy Optimization, 2015)
REINFORCE 的问题是每步更新幅度不可控——太大导致策略崩溃,太小则收敛慢。TRPO 引入信赖域约束:
subject to: KL(π_old || π_θ) ≤ δ
限制新旧策略的 KL 散度不超过 δ,保证更新幅度可控
TRPO 的理论保证很好,但实现复杂——需要计算自然梯度和共轭梯度法求解约束优化问题。这促使了更简洁的 PPO 的诞生。
三种方法的对比
| 方法 | 更新规则 | 稳定性 | 实现复杂度 | 样本效率 |
|---|---|---|---|---|
| REINFORCE | 原始策略梯度 | 低(高方差) | 最简单 | 低(on-policy) |
| TRPO | KL 约束优化 | 高(理论保证) | 复杂(自然梯度) | 中等 |
| PPO | Clip 近似约束 | 高(工程鲁棒) | 简单 | 中等 |
Section 03: PPO 完整详解
Proximal Policy Optimization — RLHF 的核心引擎,完整数学推导与实现细节
PPO(Proximal Policy Optimization, 2017)由 John Schulman 提出,是当前最广泛使用的 RL 算法。InstructGPT、ChatGPT 的对齐训练都基于 PPO。其核心优势:实现简单、训练稳定、超参数鲁棒。
PPO-Clip 目标函数
PPO 的关键创新是用 Clipping 替代 TRPO 的硬约束,以一种简洁的方式防止过大的策略更新:
Clip 的直觉:
• 当 Â_t > 0(好动作):r_t 被裁剪到最大 1+ε,防止概率增加过多
• 当 Â_t < 0(差动作):r_t 被裁剪到最小 1-ε,防止概率降低过多
• ε 通常取 0.1-0.2。效果等价于 TRPO 的信赖域,但无需求解约束优化
PPO 在 LLM 中的四个模型
在 RLHF 的 PPO 训练中,需要同时维护四个模型:
| 模型 | 角色 | 是否更新 | 显存占用 |
|---|---|---|---|
| Actor(策略模型) | 生成回答的 LLM | ✅ 更新 | 完整模型大小 |
| Critic(价值模型) | 估计每个 token 位置的价值 | ✅ 更新 | 完整模型大小 |
| Reference Model | KL 散度的参考基准 | ❌ 冻结 | 完整模型大小 |
| Reward Model | 评估回答质量 | ❌ 冻结 | 完整模型大小 |
PPO 训练循环(伪代码)
PPO 的关键超参数
| 超参数 | 典型值 | 作用 |
|---|---|---|
| ε (clip range) | 0.2 | 控制策略更新幅度 |
| β (KL 系数) | 0.01-0.1 | 平衡奖励最大化和偏离控制 |
| γ (折扣因子) | 1.0 | LLM 中通常不折扣(整个回答同等重要) |
| λ (GAE) | 0.95 | 优势估计的偏差-方差权衡 |
| K (更新轮数) | 4 | 每批数据上的 PPO 更新次数 |
| lr (学习率) | 1e-6 ~ 5e-6 | LLM PPO 需要极小学习率 |
Section 04: RLHF 完整流程
从 InstructGPT 到 ChatGPT — 三阶段训练管线与奖励模型设计
RLHF(Reinforcement Learning from Human Feedback)是将人类偏好转化为 RL 训练信号的方法论。2022 年 OpenAI 的 InstructGPT 论文将其推向主流——一个 1.3B 参数的 RLHF 模型被用户偏好超过了 175B 的 GPT-3。
三阶段训练管线
奖励模型(Reward Model)设计
RM 基于 Bradley-Terry 模型——给定两个回答 y_w(更好)和 y_l(更差),模型学习预测偏好概率:
损失:L_RM = -E[log σ(r(x, y_w) - r(x, y_l))]
只有奖励差值有意义,绝对值无意义(可以加任意常数)
RM 的常见问题:
• 分布外泛化差:RM 在训练分布内准确,但 PPO 会把策略推到分布外
• 奖励黑化(Reward Hacking):模型找到 RM 的漏洞(如更长回答得分更高)
• 标注者不一致:不同标注者对同一对比较给出不同偏好
Process RM vs Outcome RM
| 类型 | 评估粒度 | 信号密度 | 适用场景 |
|---|---|---|---|
| Outcome RM | 最终答案正确性 | 稀疏(整体一个分数) | 对话对齐、通用任务 |
| Process RM (PRM) | 每个推理步骤的正确性 | 密集(每步一个分数) | 数学推理、代码生成 |
PRM 的优势:OpenAI 的研究表明("Let's Verify Step by Step", 2023),PRM 在数学推理中显著优于 ORM——因为它能识别哪一步出错,提供更精确的训练信号。但 PRM 的标注成本极高(需要逐步评估推理链)。
Section 05: DPO 与偏好优化
Direct Preference Optimization — 将 RL 问题转化为分类问题
DPO(Direct Preference Optimization, 2023)是斯坦福提出的革命性方法。核心洞察:最优奖励函数可以用最优策略的闭式解表示,因此可以绕过奖励模型训练和 PPO,直接在偏好数据上优化策略。
数学推导
最终的 DPO 损失函数只需要:策略模型 π_θ、参考模型 π_ref、偏好数据 (x, y_w, y_l)。不需要单独的奖励模型和 PPO 训练。
DPO vs PPO/RLHF 对比
| 维度 | RLHF (PPO) | DPO |
|---|---|---|
| 需要的模型数 | 4 个(Actor, Critic, Ref, RM) | 2 个(Policy, Ref) |
| 训练稳定性 | 不稳定(RL 固有问题) | 稳定(等价于分类) |
| 超参数敏感度 | 高(ε, β, lr, GAE λ...) | 低(主要是 β) |
| 计算成本 | 4x 模型 + 采样开销 | 2x 模型,无采样 |
| 数据利用 | Online(实时采样新数据) | Offline(固定数据集) |
| 性能上限 | 更高(在线探索) | 受限于偏好数据质量 |
DPO 的变体
| 变体 | 改进点 | 适用场景 |
|---|---|---|
| IPO | 平方损失替代 log-sigmoid,防止无界优化 | 需稳定收敛 |
| KTO | 前景理论,支持非配对反馈(点赞/踩) | 大量二元反馈数据 |
| ORPO | 消除参考模型,SFT+偏好合一 | 资源受限 |
| SimPO | 用 response 长度归一化的 log-prob 作为隐式奖励 | 长度敏感任务 |
| Online DPO | 在线采样新数据替代离线数据集 | 追求更高性能 |
Section 06: GRPO 与 RLVR
Group Relative Policy Optimization + 可验证奖励 — 推理模型训练的核心技术
GRPO(Group Relative Policy Optimization)是 DeepSeek 于 2024 年提出的算法,是 2024-2025 年最重要的 RL 创新之一。GRPO + RLVR 的组合使 DeepSeek R1 成为首个通过纯 RL 获得强大推理能力的开源模型。
GRPO 核心思想
GRPO 的关键创新:用组内相对奖励替代 Critic 模型。对同一个 prompt 采样 K 个响应,计算组内归一化优势:
计算每个响应的奖励: {r_1, r_2, ..., r_K}
组内归一化优势: Â_i = (r_i - mean(r)) / (std(r) + ε)
GRPO 目标: L = E [min(ρ_i · Â_i, clip(ρ_i, 1-ε, 1+ε) · Â_i) - β · KL(π_θ || π_ref)]
其中 ρ_i = π_θ(y_i|x) / π_{old}(y_i|x)
GRPO vs PPO
| 维度 | PPO | GRPO |
|---|---|---|
| Critic 模型 | 需要(与 Actor 等大) | 不需要 |
| 显存占用 | 4x 模型 | ~2x 模型 + K 个采样 |
| 优势估计 | GAE(需 Critic V(s)) | 组内归一化 |
| 方差控制 | Critic 基线 | 组内 mean 基线 |
| 适用场景 | 通用 RL、对话对齐 | 推理任务(数学、代码) |
| 代表模型 | ChatGPT, Claude | DeepSeek R1 |
RLVR(RL with Verifiable Rewards)
RLVR 是 GRPO 的"灵魂伴侣"——提供可自动验证的奖励信号,完全绕过人类标注和学习型奖励模型:
| 奖励来源 | 原理 | 示例 |
|---|---|---|
| 数学验证器 | 检查最终答案是否等于标准答案 | "42" == "42" → reward = 1 |
| 代码执行器 | 运行代码检查测试用例是否通过 | pass@k 测试 → reward = pass_rate |
| 形式验证 | 逻辑推理的自动证明检查 | Lean4 / Coq 证明验证 |
| 规则匹配 | 检查输出格式是否正确 | JSON 格式校验 → reward = valid |
GRPO 的改进变体(2025)
| 变体 | 改进点 | 来源 |
|---|---|---|
| DAPO | 去除 KL 约束 + clip-higher 防止熵坍缩 + 动态采样 + token 级归一化 | ByteDance, 2025 |
| Dr. GRPO | 移除方差归一化(仅用 mean 归一化),简化实现 | 2025 |
| GSPO | Group Shuffled Policy Optimization,改进组内比较方式 | 2025 |
Section 07: 推理模型(Reasoning Model)训练
OpenAI o1/o3、DeepSeek R1 — RL 如何教会模型"思考"
2024-2025 年,AI 领域最大的突破之一是推理模型的兴起。这些模型通过 RL 训练获得了"深度思考"的能力——在回答问题前生成长链推理过程(Chain of Thought),显著提升了数学、编程和逻辑推理的准确率。
两大代表模型
DeepSeek R1 的训练流程
关键发现:RL 的涌现能力
DeepSeek R1-Zero 展示了几个令人惊讶的涌现现象:
• "Aha moment":训练过程中模型突然学会自我反思("Wait, let me reconsider..."),推理准确率急剧提升
• 推理长度自适应:模型学会对简单问题用短推理、对复杂问题用长推理
• 自我验证:模型自发学会在得出答案后检查自己的推理过程
• 语言混合:R1-Zero 自发切换中英文推理(因为无格式约束),反映了 RL 优化的"自由探索"
Test-Time Compute Scaling
推理模型引入了一个新范式:推理时增加计算量可以提升性能。与传统的"大模型更好"不同,现在"想更久也更好"。
1. 更长的 CoT:让模型思考更多步(更多 token)
2. Best-of-N:采样 N 个回答,用验证器选最优
3. Beam Search over CoT:对推理链进行 beam search
o1/o3 的推理能力部分来自推理时的大量计算
Section 08: 多智能体强化学习(MARL)
Self-Play、协作与竞争、LLM Debate — 多个 Agent 如何通过 RL 交互学习
多智能体强化学习(MARL)研究多个智能体在共享环境中通过 RL 同时学习的问题。在 LLM 时代,MARL 有两个重要应用方向:Self-Play 自我博弈和LLM Debate 辩论对齐。
经典 MARL 里程碑
| 系统 | 年份 | 环境 | 方法 | 成就 |
|---|---|---|---|---|
| AlphaGo | 2016 | 围棋 | MCTS + Self-Play RL | 击败世界冠军李世乭 |
| AlphaZero | 2017 | 围棋/象棋/将棋 | 纯 Self-Play(无人类数据) | 从零学习超越所有先前 AI |
| OpenAI Five | 2019 | Dota 2 | PPO + Self-Play | 击败世界冠军队伍 |
| AlphaStar | 2019 | StarCraft II | Population-Based Training | 达到大师级水平 |
| Cicero | 2022 | Diplomacy | RL + 自然语言策略 | 在需要协作/欺骗的游戏中达到人类水平 |
Self-Play 在 LLM 中的应用
Self-Play是让模型与自身的副本对弈,通过竞争或协作提升能力。在 LLM 领域的应用:
• SPIN(Self-Play Fine-Tuning):模型生成回答,然后自己学习区分"自己生成的"和"人类写的"回答。迭代进行,每轮模型都变得更接近人类水平
• LLM Debate:两个 LLM 就同一问题辩论,人类(或另一个 LLM)判断胜负。RL 训练让两个模型都学会更有说服力和更准确的论证
• RLVR 中的 Self-Play:DeepSeek R1 的 GRPO 本质上是一种 Self-Play——同一模型的多个采样相互比较
MARL 用于 AI 安全
AI Safety via Debate(Irving et al., 2018):让两个 AI 围绕一个问题辩论,人类只需判断谁更有说服力(比直接评估 AI 回答容易得多)。如果辩论是零和博弈,理论上真实答案是纳什均衡——说谎者最终会被另一方揭穿。
这是一种可扩展监督(Scalable Oversight)方案:即使超级 AI 的回答人类无法直接评估,通过观看两个 AI 的辩论仍然可以识别哪个更正确。
Section 09: 前沿趋势与未来方向
2025 年 RL for AI 的最新发展和开放问题
2025 年 RL for LLM 的技术栈
2025 年,业界已形成相对成熟的模块化后训练栈:
前沿研究方向
| 方向 | 核心问题 | 代表工作 |
|---|---|---|
| Generalized RLVR | 将可验证奖励从数学/代码扩展到更多领域 | 使用 LLM-as-Judge 作为弱验证器 |
| Process Supervision | 细粒度推理步骤奖励,而非只看最终答案 | OpenAI PRM, Math-Shepherd |
| RL for World Models | 让 LLM 通过 RL 学习世界模型和因果推理 | 模型内部推理的 RL 优化 |
| Efficient RL Training | 降低 RL 训练成本,支持更长推理 | DAPO、异步采样、参数高效 RL |
| Superalignment | 用弱模型监督强模型 | Weak-to-Strong Generalization |
| Multi-Objective RL | 同时优化有用性、安全性、推理能力 | Pareto-DPO, 多奖励模型 |
| RL for Agents | 训练 LLM Agent 使用工具、完成任务 | WebAgent, SWE-Agent RL training |
开放问题
1. RL 是否真的教会了推理?最近的研究("RLVR Makes Models Faster, Not Smarter")提出争议:RLVR 可能只是在放大预训练中已有的推理能力,而非创造新能力。模型学会了更好地调用已有知识,但知识本身来自预训练。
2. 奖励信号的可扩展性:RLVR 在数学和代码上效果好,因为有精确验证器。但对于创意写作、策略建议等无法精确验证的任务,如何设计有效的奖励信号仍是开放问题。
3. RL 训练的安全性:强大的 RL 训练可能导致模型学会"钻空子"(reward hacking)。推理模型尤其危险——它们可能学会生成看似正确但实际错误的推理链来获得奖励。
4. 计算可持续性:推理模型的训练和推理成本都极高。o3 的推理费用是 o1 的数倍,每个问题可能消耗数千个 token 的"思考"过程。如何降低成本是实际部署的关键。