Deep Dive · Reinforcement Learning

强化学习在 AI 中的应用全解

从 MDP 基础到 RLHF、GRPO、推理模型训练 — 覆盖经典理论与 2025 最新技术

基础理论

Section 00: 强化学习基础与 MDP

马尔可夫决策过程、状态-动作-奖励、折扣回报、探索与利用

强化学习(Reinforcement Learning, RL)是机器学习的三大范式之一(监督学习、无监督学习、强化学习)。核心思想是智能体(Agent)通过与环境(Environment)交互,根据获得的奖励信号(Reward)学习最优策略(Policy)

与监督学习不同,RL 没有明确的"正确答案"标签——智能体必须通过试错(trial and error)自行发现什么行为能带来最大长期收益。这使得 RL 特别适合序列决策问题:下棋、对话生成、机器人控制、LLM 对齐等。

马尔可夫决策过程 (MDP)

RL 的数学框架是马尔可夫决策过程,定义为五元组 (S, A, P, R, γ):

MDP = (S, A, P, R, γ)
S: 状态空间(State Space)
A: 动作空间(Action Space)
P(s'|s,a): 状态转移概率
R(s,a,s'): 奖励函数
γ ∈ [0,1]: 折扣因子

马尔可夫性质:下一个状态只依赖于当前状态和动作,与历史无关:P(s_{t+1}|s_t, a_t) = P(s_{t+1}|s_0,...,s_t, a_0,...,a_t)。在 LLM 场景中,"状态"是目前为止生成的所有 token,"动作"是下一个 token 的选择。

核心概念

概念定义LLM 中的对应
策略 π(a|s)在状态 s 下选择动作 a 的概率分布LLM 的 next-token 概率分布
状态价值 V^π(s)从状态 s 出发,遵循策略 π 的期望累计回报从当前生成位置起的预期回答质量
动作价值 Q^π(s,a)在 s 执行 a 后遵循 π 的期望累计回报选择某个 token 后预期的回答质量
优势函数 A^π(s,a)Q^π(s,a) - V^π(s),衡量动作 a 比平均好多少该 token 比平均选择好多少
折扣回报 G_tΣ_{k=0}^∞ γ^k r_{t+k+1}整个回答的加权质量评分
Bellman 方程(价值函数的递推关系):
V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a) [R(s,a,s') + γ V^π(s')]
当前状态的价值 = 即时奖励 + 折扣后的下一状态价值

探索与利用(Exploration vs Exploitation)

这是 RL 的核心困境:利用(Exploitation)选择当前已知最优动作以获得即时收益;探索(Exploration)尝试新动作以发现可能更好的策略。

在 LLM 训练中,这体现为:利用 = 生成高奖励的安全回答;探索 = 尝试新的表达方式,可能发现更好的回答策略。KL 散度约束(限制新策略偏离参考模型的程度)本质上就是在控制探索的幅度。

为什么 LLM 对齐是 RL 问题? 因为"好的回答"没有唯一标准答案(不适合监督学习),但我们可以评估回答质量(奖励信号)。LLM 生成是序列决策:每个 token 都是一个"动作",影响后续所有 token。RLHF 将人类偏好转化为奖励信号,引导 LLM 学习更好的生成策略。
经典算法

Section 01: 经典 RL 算法演进

从 Q-Learning 到 Actor-Critic — 理解现代 LLM RL 的算法基石

现代 LLM 中使用的 PPO、GRPO 等算法并非凭空出现,而是 RL 领域几十年发展的结晶。理解经典算法有助于深入理解当代技术的设计动机。

Value-Based 方法

Q-Learning(1989)是最经典的无模型 RL 算法,直接学习 Q(s,a) 函数,通过贪婪策略选取最优动作:

Q(s,a) ← Q(s,a) + α [r + γ max_{a'} Q(s',a') - Q(s,a)]
α: 学习率, γ: 折扣因子, max_{a'}: 选下一状态最优动作

Deep Q-Network (DQN, 2015):DeepMind 用神经网络逼近 Q 函数,在 Atari 游戏上达到超人水平。关键创新:Experience Replay(经验回放池打破时序相关性)和 Target Network(目标网络稳定训练)。

为什么 LLM 不用 Q-Learning? LLM 的动作空间是整个词表(~128K tokens),状态空间是所有可能的 token 序列——这是一个astronomically 大的离散空间。Q-Learning 需要对每个 (s,a) 对估计价值,在 LLM 场景下完全不可行。这就是为什么 LLM RL 走向了 Policy Gradient 方法。

Policy-Based 方法

REINFORCE(1992)直接优化策略参数 θ,使期望回报最大化:

∇_θ J(θ) = E_τ~π_θ [Σ_t ∇_θ log π_θ(a_t|s_t) · G_t]
策略梯度定理:沿着高回报轨迹的方向更新策略

REINFORCE 的直觉:如果一个动作序列获得了高回报 G_t,就增加这些动作的概率;反之就降低。问题是高方差——同一策略生成的不同轨迹回报差异极大,导致梯度估计不稳定。

Actor-Critic 方法

Actor-Critic 结合了 Value-Based 和 Policy-Based 的优势:

组件角色学习内容在 LLM RL 中
Actor(演员)决定做什么策略 π_θ(a|s)LLM 本身(生成 token)
Critic(评论家)评估做得好不好价值函数 V_φ(s)价值网络(评估生成质量)
Actor 更新:∇_θ J(θ) = E [∇_θ log π_θ(a|s) · A(s,a)]
Critic 更新:min_φ E [(V_φ(s) - G_t)²]
优势函数 A(s,a) = Q(s,a) - V(s) 由 Critic 估计,大幅降低方差

关键改进——GAE(Generalized Advantage Estimation):

Â_t^GAE = Σ_{l=0}^∞ (γλ)^l δ_{t+l}
其中 δ_t = r_t + γV(s_{t+1}) - V(s_t)(TD 残差)
λ 控制偏差-方差权衡:λ=0 低方差高偏差,λ=1 高方差低偏差

RL 算法演进时间线

1989
Q-Learning
Watkins 提出表格型 Q-Learning,奠定 Value-Based RL 基础
1992
REINFORCE
Williams 提出策略梯度算法,开创 Policy-Based RL
2000
Actor-Critic
Konda & Tsitsiklis 统一 Value 和 Policy 方法
2015
DQN / TRPO
DeepMind 的 DQN 和 Schulman 的信赖域策略优化
2017
PPO
Schulman 提出 PPO,简化 TRPO 同时保持稳定性,成为最流行的 RL 算法
2022
InstructGPT / RLHF
OpenAI 用 PPO + 人类反馈训练 InstructGPT,开创 LLM 对齐新范式
2023
DPO
斯坦福提出直接偏好优化,绕过奖励模型和 RL 训练
2024
GRPO / RLVR
DeepSeek 提出 GRPO,配合可验证奖励训练推理模型
2025
DAPO / Dr.GRPO
GRPO 的改进变体:无 KL 约束、动态采样、token 级归一化
核心算法

Section 02: Policy Gradient 家族

REINFORCE → TRPO → PPO — 从不稳定到可控的策略优化之路

Policy Gradient(策略梯度)方法是现代 LLM RL 的基础。其核心思想简洁而优雅:直接参数化策略函数 π_θ,通过梯度上升最大化期望回报

策略梯度定理

目标函数 J(θ) = E_{τ~π_θ} [R(τ)] = E_{τ~π_θ} [Σ_t r_t]
策略梯度 ∇_θ J(θ) = E_{τ~π_θ} [Σ_t ∇_θ log π_θ(a_t|s_t) · Â_t]
直觉 好的动作 (Â_t > 0) → 增加概率;差的动作 (Â_t < 0) → 降低概率

TRPO(Trust Region Policy Optimization, 2015)

REINFORCE 的问题是每步更新幅度不可控——太大导致策略崩溃,太小则收敛慢。TRPO 引入信赖域约束

max_θ E_{s,a~π_old} [π_θ(a|s) / π_old(a|s) · Â(s,a)]
subject to: KL(π_old || π_θ) ≤ δ
限制新旧策略的 KL 散度不超过 δ,保证更新幅度可控

TRPO 的理论保证很好,但实现复杂——需要计算自然梯度和共轭梯度法求解约束优化问题。这促使了更简洁的 PPO 的诞生。

三种方法的对比

方法更新规则稳定性实现复杂度样本效率
REINFORCE原始策略梯度低(高方差)最简单低(on-policy)
TRPOKL 约束优化高(理论保证)复杂(自然梯度)中等
PPOClip 近似约束高(工程鲁棒)简单中等
核心算法

Section 03: PPO 完整详解

Proximal Policy Optimization — RLHF 的核心引擎,完整数学推导与实现细节

PPO(Proximal Policy Optimization, 2017)由 John Schulman 提出,是当前最广泛使用的 RL 算法。InstructGPT、ChatGPT 的对齐训练都基于 PPO。其核心优势:实现简单训练稳定超参数鲁棒

PPO-Clip 目标函数

PPO 的关键创新是用 Clipping 替代 TRPO 的硬约束,以一种简洁的方式防止过大的策略更新:

概率比 r_t(θ) = π_θ(a_t|s_t) / π_{θ_old}(a_t|s_t)
PPO-Clip 目标 L^CLIP(θ) = E_t [min(r_t(θ) · Â_t, clip(r_t(θ), 1-ε, 1+ε) · Â_t)]
完整目标(含价值损失和熵正则) L(θ) = L^CLIP(θ) - c₁ · L^VF(θ) + c₂ · S[π_θ]

Clip 的直觉:

• 当 Â_t > 0(好动作):r_t 被裁剪到最大 1+ε,防止概率增加过多
• 当 Â_t < 0(差动作):r_t 被裁剪到最小 1-ε,防止概率降低过多
• ε 通常取 0.1-0.2。效果等价于 TRPO 的信赖域,但无需求解约束优化

PPO 在 LLM 中的四个模型

在 RLHF 的 PPO 训练中,需要同时维护四个模型

模型角色是否更新显存占用
Actor(策略模型)生成回答的 LLM✅ 更新完整模型大小
Critic(价值模型)估计每个 token 位置的价值✅ 更新完整模型大小
Reference ModelKL 散度的参考基准❌ 冻结完整模型大小
Reward Model评估回答质量❌ 冻结完整模型大小
PPO 的显存瓶颈:4 个模型 × 70B 参数 = 280B 参数需同时在 GPU 上。这就是为什么 RLHF/PPO 训练极其昂贵,也是 DPO(不需要 Reward Model 和 Critic)和 GRPO(不需要 Critic)诞生的动机。

PPO 训练循环(伪代码)

# PPO for LLM alignment (simplified) for epoch in range(num_epochs): # 1. 采样阶段:Actor 生成回答 prompts = sample_batch(prompt_dataset) responses = actor.generate(prompts) # 2. 评估阶段:计算奖励和价值 rewards = reward_model(prompts, responses) values = critic(prompts, responses) ref_logprobs = reference_model.logprobs(responses) # 3. 计算 KL 惩罚后的奖励 kl_penalty = β * (actor_logprobs - ref_logprobs) adjusted_rewards = rewards - kl_penalty # 4. 计算 GAE 优势估计 advantages = compute_gae(adjusted_rewards, values, γ, λ) # 5. PPO 更新(多个 mini-batch) for mini_batch in split(advantages, K): ratio = actor.logprobs(responses) / old_logprobs clipped = clip(ratio, 1-ε, 1+ε) actor_loss = -min(ratio * advantages, clipped * advantages) critic_loss = (critic(responses) - returns)² loss = actor_loss + c1 * critic_loss - c2 * entropy loss.backward() optimizer.step()

PPO 的关键超参数

超参数典型值作用
ε (clip range)0.2控制策略更新幅度
β (KL 系数)0.01-0.1平衡奖励最大化和偏离控制
γ (折扣因子)1.0LLM 中通常不折扣(整个回答同等重要)
λ (GAE)0.95优势估计的偏差-方差权衡
K (更新轮数)4每批数据上的 PPO 更新次数
lr (学习率)1e-6 ~ 5e-6LLM PPO 需要极小学习率
LLM 对齐

Section 04: RLHF 完整流程

从 InstructGPT 到 ChatGPT — 三阶段训练管线与奖励模型设计

RLHF(Reinforcement Learning from Human Feedback)是将人类偏好转化为 RL 训练信号的方法论。2022 年 OpenAI 的 InstructGPT 论文将其推向主流——一个 1.3B 参数的 RLHF 模型被用户偏好超过了 175B 的 GPT-3。

三阶段训练管线

01
SFT(有监督微调)
在高质量 prompt-response 对上微调预训练模型。数据来源:人工编写的示例(10K-100K 条)。目标:让模型学会指令跟随的基本格式和风格。
02
Reward Model 训练
收集人类偏好数据(对同一 prompt 的多个 response 进行排序),训练 Bradley-Terry 奖励模型。RM 学习预测人类更喜欢哪个回答。通常使用 SFT 模型的最后一层替换为标量输出头。
03
PPO 强化学习
使用 PPO 算法优化 SFT 模型,以最大化 Reward Model 的评分,同时通过 KL 散度约束防止偏离太远。这一步最昂贵(4 个模型同时在线),也最容易出问题。

奖励模型(Reward Model)设计

RM 基于 Bradley-Terry 模型——给定两个回答 y_w(更好)和 y_l(更差),模型学习预测偏好概率:

P(y_w > y_l | x) = σ(r(x, y_w) - r(x, y_l))
损失:L_RM = -E[log σ(r(x, y_w) - r(x, y_l))]
只有奖励差值有意义,绝对值无意义(可以加任意常数)

RM 的常见问题:

分布外泛化差:RM 在训练分布内准确,但 PPO 会把策略推到分布外
奖励黑化(Reward Hacking):模型找到 RM 的漏洞(如更长回答得分更高)
标注者不一致:不同标注者对同一对比较给出不同偏好

Process RM vs Outcome RM

类型评估粒度信号密度适用场景
Outcome RM最终答案正确性稀疏(整体一个分数)对话对齐、通用任务
Process RM (PRM)每个推理步骤的正确性密集(每步一个分数)数学推理、代码生成

PRM 的优势:OpenAI 的研究表明("Let's Verify Step by Step", 2023),PRM 在数学推理中显著优于 ORM——因为它能识别哪一步出错,提供更精确的训练信号。但 PRM 的标注成本极高(需要逐步评估推理链)。

RLHF 的里程碑:InstructGPT (2022) 证明了 RLHF 的威力——1.3B 模型通过 RLHF 在用户评估中击败了 175B 的 GPT-3(100x 参数差距)。ChatGPT (2022.11) 的发布更是将 RLHF 推向了全球聚光灯。Anthropic 的 Claude 系列则在 RLHF 基础上发展了 Constitutional AI (RLAIF)。
无 RL 对齐

Section 05: DPO 与偏好优化

Direct Preference Optimization — 将 RL 问题转化为分类问题

DPO(Direct Preference Optimization, 2023)是斯坦福提出的革命性方法。核心洞察:最优奖励函数可以用最优策略的闭式解表示,因此可以绕过奖励模型训练和 PPO,直接在偏好数据上优化策略。

数学推导

Step 1: RLHF 的目标 max_π E[r(x,y)] - β · KL(π || π_ref)
Step 2: 最优策略的闭式解 π*(y|x) = π_ref(y|x) · exp(r(x,y) / β) / Z(x)
Step 3: 反解奖励函数 r(x,y) = β · log(π*(y|x) / π_ref(y|x)) + β · log Z(x)
Step 4: 代入 Bradley-Terry,Z(x) 被消去 L_DPO = -E[log σ(β(log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))]

最终的 DPO 损失函数只需要:策略模型 π_θ、参考模型 π_ref、偏好数据 (x, y_w, y_l)。不需要单独的奖励模型和 PPO 训练

DPO vs PPO/RLHF 对比

维度RLHF (PPO)DPO
需要的模型数4 个(Actor, Critic, Ref, RM)2 个(Policy, Ref)
训练稳定性不稳定(RL 固有问题)稳定(等价于分类)
超参数敏感度高(ε, β, lr, GAE λ...)低(主要是 β)
计算成本4x 模型 + 采样开销2x 模型,无采样
数据利用Online(实时采样新数据)Offline(固定数据集)
性能上限更高(在线探索)受限于偏好数据质量

DPO 的变体

变体改进点适用场景
IPO平方损失替代 log-sigmoid,防止无界优化需稳定收敛
KTO前景理论,支持非配对反馈(点赞/踩)大量二元反馈数据
ORPO消除参考模型,SFT+偏好合一资源受限
SimPO用 response 长度归一化的 log-prob 作为隐式奖励长度敏感任务
Online DPO在线采样新数据替代离线数据集追求更高性能
DPO 的局限与 Online RL 的回归:DPO 是 Offline 方法——它只能从固定的偏好数据中学习,不能探索新策略。这意味着 DPO 的性能上限受限于偏好数据的质量和多样性。2024-2025 年的趋势是回归 Online RL(如 GRPO),因为 Online 方法可以生成新数据、探索新策略,突破偏好数据的天花板。
2024-2025 前沿

Section 06: GRPO 与 RLVR

Group Relative Policy Optimization + 可验证奖励 — 推理模型训练的核心技术

GRPO(Group Relative Policy Optimization)是 DeepSeek 于 2024 年提出的算法,是 2024-2025 年最重要的 RL 创新之一。GRPO + RLVR 的组合使 DeepSeek R1 成为首个通过纯 RL 获得强大推理能力的开源模型。

GRPO 核心思想

GRPO 的关键创新:用组内相对奖励替代 Critic 模型。对同一个 prompt 采样 K 个响应,计算组内归一化优势:

对 prompt x,采样 K 个响应: {y_1, y_2, ..., y_K} ~ π_θ(·|x)
计算每个响应的奖励: {r_1, r_2, ..., r_K}
组内归一化优势: Â_i = (r_i - mean(r)) / (std(r) + ε)

GRPO 目标: L = E [min(ρ_i · Â_i, clip(ρ_i, 1-ε, 1+ε) · Â_i) - β · KL(π_θ || π_ref)]
其中 ρ_i = π_θ(y_i|x) / π_{old}(y_i|x)

GRPO vs PPO

维度PPOGRPO
Critic 模型需要(与 Actor 等大)不需要
显存占用4x 模型~2x 模型 + K 个采样
优势估计GAE(需 Critic V(s))组内归一化
方差控制Critic 基线组内 mean 基线
适用场景通用 RL、对话对齐推理任务(数学、代码)
代表模型ChatGPT, ClaudeDeepSeek R1

RLVR(RL with Verifiable Rewards)

RLVR 是 GRPO 的"灵魂伴侣"——提供可自动验证的奖励信号,完全绕过人类标注和学习型奖励模型:

奖励来源原理示例
数学验证器检查最终答案是否等于标准答案"42" == "42" → reward = 1
代码执行器运行代码检查测试用例是否通过pass@k 测试 → reward = pass_rate
形式验证逻辑推理的自动证明检查Lean4 / Coq 证明验证
规则匹配检查输出格式是否正确JSON 格式校验 → reward = valid
RLVR 的革命性意义:传统 RLHF 需要昂贵的人类标注(~$10-50 per comparison)。RLVR 的奖励是免费、无限且完全准确的。这使得大规模 RL 训练成为可能——DeepSeek R1 在数学和代码任务上训练了数百万轮 GRPO + RLVR,成本远低于同等规模的 RLHF。

GRPO 的改进变体(2025)

变体改进点来源
DAPO去除 KL 约束 + clip-higher 防止熵坍缩 + 动态采样 + token 级归一化ByteDance, 2025
Dr. GRPO移除方差归一化(仅用 mean 归一化),简化实现2025
GSPOGroup Shuffled Policy Optimization,改进组内比较方式2025
推理革命

Section 07: 推理模型(Reasoning Model)训练

OpenAI o1/o3、DeepSeek R1 — RL 如何教会模型"思考"

2024-2025 年,AI 领域最大的突破之一是推理模型的兴起。这些模型通过 RL 训练获得了"深度思考"的能力——在回答问题前生成长链推理过程(Chain of Thought),显著提升了数学、编程和逻辑推理的准确率。

两大代表模型

OPENAI
o1 / o3
首个推理模型(2024.9)。通过大规模 RL 训练学会隐式搜索(implicit search via CoT)。o3 使用 10x 更多训练计算,引入 deliberative alignment。训练细节未公开,推测使用 Outcome-Based RL + 可能的 PRM。
DEEPSEEK
R1
首个开源推理模型(2025.1)。使用 GRPO + RLVR 纯 RL 训练。R1-Zero 展示了无需 SFT 直接 RL 也能涌现推理能力。完全开源训练细节和权重。

DeepSeek R1 的训练流程

01
R1-Zero:纯 RL 实验
从 DeepSeek-V3-Base(未经 SFT)直接用 GRPO + RLVR 训练。惊人发现:模型自发涌现出 Chain-of-Thought、自我验证、反思等推理行为——无需人类示范。
02
冷启动数据收集
R1-Zero 的输出格式混乱,语言混杂。收集少量高质量 CoT 数据(~数千条)进行 SFT,建立良好的输出格式和语言习惯。
03
推理导向 RL
在冷启动 SFT 基础上进行大规模 GRPO + RLVR 训练。奖励来源:数学答案验证、代码测试用例、规则匹配。训练数据覆盖数学、编程、科学推理等。
04
拒绝采样 + SFT
从 RL 模型中采样大量推理轨迹,筛选高质量数据。混合推理数据和通用数据进行 SFT,恢复通用能力(写作、对话等)。
05
全场景 RL
最后一轮 RL 同时优化推理任务(RLVR)和通用任务(基于 RM 的 RLHF),实现推理与通用能力的统一。

关键发现:RL 的涌现能力

DeepSeek R1-Zero 展示了几个令人惊讶的涌现现象:

"Aha moment":训练过程中模型突然学会自我反思("Wait, let me reconsider..."),推理准确率急剧提升
推理长度自适应:模型学会对简单问题用短推理、对复杂问题用长推理
自我验证:模型自发学会在得出答案后检查自己的推理过程
语言混合:R1-Zero 自发切换中英文推理(因为无格式约束),反映了 RL 优化的"自由探索"

Test-Time Compute Scaling

推理模型引入了一个新范式:推理时增加计算量可以提升性能。与传统的"大模型更好"不同,现在"想更久也更好"。

Test-Time Scaling 策略:
1. 更长的 CoT:让模型思考更多步(更多 token)
2. Best-of-N:采样 N 个回答,用验证器选最优
3. Beam Search over CoT:对推理链进行 beam search
o1/o3 的推理能力部分来自推理时的大量计算
多智能体

Section 08: 多智能体强化学习(MARL)

Self-Play、协作与竞争、LLM Debate — 多个 Agent 如何通过 RL 交互学习

多智能体强化学习(MARL)研究多个智能体在共享环境中通过 RL 同时学习的问题。在 LLM 时代,MARL 有两个重要应用方向:Self-Play 自我博弈LLM Debate 辩论对齐

经典 MARL 里程碑

系统年份环境方法成就
AlphaGo2016围棋MCTS + Self-Play RL击败世界冠军李世乭
AlphaZero2017围棋/象棋/将棋纯 Self-Play(无人类数据)从零学习超越所有先前 AI
OpenAI Five2019Dota 2PPO + Self-Play击败世界冠军队伍
AlphaStar2019StarCraft IIPopulation-Based Training达到大师级水平
Cicero2022DiplomacyRL + 自然语言策略在需要协作/欺骗的游戏中达到人类水平

Self-Play 在 LLM 中的应用

Self-Play是让模型与自身的副本对弈,通过竞争或协作提升能力。在 LLM 领域的应用:

SPIN(Self-Play Fine-Tuning):模型生成回答,然后自己学习区分"自己生成的"和"人类写的"回答。迭代进行,每轮模型都变得更接近人类水平
LLM Debate:两个 LLM 就同一问题辩论,人类(或另一个 LLM)判断胜负。RL 训练让两个模型都学会更有说服力和更准确的论证
RLVR 中的 Self-Play:DeepSeek R1 的 GRPO 本质上是一种 Self-Play——同一模型的多个采样相互比较

MARL 用于 AI 安全

AI Safety via Debate(Irving et al., 2018):让两个 AI 围绕一个问题辩论,人类只需判断谁更有说服力(比直接评估 AI 回答容易得多)。如果辩论是零和博弈,理论上真实答案是纳什均衡——说谎者最终会被另一方揭穿。

这是一种可扩展监督(Scalable Oversight)方案:即使超级 AI 的回答人类无法直接评估,通过观看两个 AI 的辩论仍然可以识别哪个更正确。

未来方向

Section 09: 前沿趋势与未来方向

2025 年 RL for AI 的最新发展和开放问题

2025 年 RL for LLM 的技术栈

2025 年,业界已形成相对成熟的模块化后训练栈

01
SFT(指令跟随)
高质量指令数据微调,建立基本格式和风格。LIMA 证明 1K 高质量数据可能就够。
02
偏好优化(对齐)
DPO / SimPO / KTO 用于通用对齐——有用性、安全性、格式遵循。Offline 方法,成本低。
03
RLVR(推理能力)
GRPO / DAPO + 可验证奖励,用于数学、代码、逻辑推理。Online 方法,可超越训练数据。
04
安全 RL(红线对齐)
Constitutional AI / Rule-Based RL 用于安全边界。确保模型不产生有害内容。

前沿研究方向

方向核心问题代表工作
Generalized RLVR将可验证奖励从数学/代码扩展到更多领域使用 LLM-as-Judge 作为弱验证器
Process Supervision细粒度推理步骤奖励,而非只看最终答案OpenAI PRM, Math-Shepherd
RL for World Models让 LLM 通过 RL 学习世界模型和因果推理模型内部推理的 RL 优化
Efficient RL Training降低 RL 训练成本,支持更长推理DAPO、异步采样、参数高效 RL
Superalignment用弱模型监督强模型Weak-to-Strong Generalization
Multi-Objective RL同时优化有用性、安全性、推理能力Pareto-DPO, 多奖励模型
RL for Agents训练 LLM Agent 使用工具、完成任务WebAgent, SWE-Agent RL training

开放问题

1. RL 是否真的教会了推理?最近的研究("RLVR Makes Models Faster, Not Smarter")提出争议:RLVR 可能只是在放大预训练中已有的推理能力,而非创造新能力。模型学会了更好地调用已有知识,但知识本身来自预训练。

2. 奖励信号的可扩展性:RLVR 在数学和代码上效果好,因为有精确验证器。但对于创意写作、策略建议等无法精确验证的任务,如何设计有效的奖励信号仍是开放问题。

3. RL 训练的安全性:强大的 RL 训练可能导致模型学会"钻空子"(reward hacking)。推理模型尤其危险——它们可能学会生成看似正确但实际错误的推理链来获得奖励。

4. 计算可持续性:推理模型的训练和推理成本都极高。o3 的推理费用是 o1 的数倍,每个问题可能消耗数千个 token 的"思考"过程。如何降低成本是实际部署的关键。

总结:RL 正在从 LLM 训练的"可选步骤"变为"核心引擎"。从 RLHF 的对齐对话质量,到 GRPO+RLVR 的推理能力训练,RL 已经成为让 LLM 超越"模式匹配"走向"真正推理"的关键技术。2025 年之后,RL 在 AI 中的地位只会更加重要。