强化学习在 AI 中的应用全解

基础理论

Section 00: 强化学习基础与 MDP

马尔可夫决策过程、状态-动作-奖励、折扣回报、探索与利用

强化学习（Reinforcement Learning, RL）是机器学习的三大范式之一（监督学习、无监督学习、强化学习）。核心思想是智能体（Agent）通过与环境（Environment）交互，根据获得的奖励信号（Reward）学习最优策略（Policy）。

与监督学习不同，RL 没有明确的"正确答案"标签——智能体必须通过试错（trial and error）自行发现什么行为能带来最大长期收益。这使得 RL 特别适合序列决策问题：下棋、对话生成、机器人控制、LLM 对齐等。

马尔可夫决策过程 (MDP)

RL 的数学框架是马尔可夫决策过程，定义为五元组 (S, A, P, R, γ)：

MDP = (S, A, P, R, γ)
S: 状态空间（State Space）
A: 动作空间（Action Space）
P(s'|s,a): 状态转移概率
R(s,a,s'): 奖励函数
γ ∈ [0,1]: 折扣因子

马尔可夫性质：下一个状态只依赖于当前状态和动作，与历史无关：P(s_{t+1}|s_t, a_t) = P(s_{t+1}|s_0,...,s_t, a_0,...,a_t)。在 LLM 场景中，"状态"是目前为止生成的所有 token，"动作"是下一个 token 的选择。

核心概念

概念	定义	LLM 中的对应
策略 π(a\|s)	在状态 s 下选择动作 a 的概率分布	LLM 的 next-token 概率分布
状态价值 V^π(s)	从状态 s 出发，遵循策略 π 的期望累计回报	从当前生成位置起的预期回答质量
动作价值 Q^π(s,a)	在 s 执行 a 后遵循 π 的期望累计回报	选择某个 token 后预期的回答质量
优势函数 A^π(s,a)	Q^π(s,a) - V^π(s)，衡量动作 a 比平均好多少	该 token 比平均选择好多少
折扣回报 G_t	Σ_{k=0}^∞ γ^k r_{t+k+1}	整个回答的加权质量评分

Bellman 方程（价值函数的递推关系）：
V^π(s) = Σ_a π(a|s) Σ_{s'} P(s'|s,a) [R(s,a,s') + γ V^π(s')]
当前状态的价值 = 即时奖励 + 折扣后的下一状态价值

探索与利用（Exploration vs Exploitation）

这是 RL 的核心困境：利用（Exploitation）选择当前已知最优动作以获得即时收益；探索（Exploration）尝试新动作以发现可能更好的策略。

在 LLM 训练中，这体现为：利用 = 生成高奖励的安全回答；探索 = 尝试新的表达方式，可能发现更好的回答策略。KL 散度约束（限制新策略偏离参考模型的程度）本质上就是在控制探索的幅度。

为什么 LLM 对齐是 RL 问题？ 因为"好的回答"没有唯一标准答案（不适合监督学习），但我们可以评估回答质量（奖励信号）。LLM 生成是序列决策：每个 token 都是一个"动作"，影响后续所有 token。RLHF 将人类偏好转化为奖励信号，引导 LLM 学习更好的生成策略。

经典算法

Section 01: 经典 RL 算法演进

从 Q-Learning 到 Actor-Critic — 理解现代 LLM RL 的算法基石

现代 LLM 中使用的 PPO、GRPO 等算法并非凭空出现，而是 RL 领域几十年发展的结晶。理解经典算法有助于深入理解当代技术的设计动机。

Value-Based 方法

Q-Learning（1989）是最经典的无模型 RL 算法，直接学习 Q(s,a) 函数，通过贪婪策略选取最优动作：

Q(s,a) ← Q(s,a) + α [r + γ max_{a'} Q(s',a') - Q(s,a)]
α: 学习率, γ: 折扣因子, max_{a'}: 选下一状态最优动作

Deep Q-Network (DQN, 2015)：DeepMind 用神经网络逼近 Q 函数，在 Atari 游戏上达到超人水平。关键创新：Experience Replay（经验回放池打破时序相关性）和 Target Network（目标网络稳定训练）。

为什么 LLM 不用 Q-Learning？ LLM 的动作空间是整个词表（~128K tokens），状态空间是所有可能的 token 序列——这是一个astronomically 大的离散空间。Q-Learning 需要对每个 (s,a) 对估计价值，在 LLM 场景下完全不可行。这就是为什么 LLM RL 走向了 Policy Gradient 方法。

Policy-Based 方法

REINFORCE（1992）直接优化策略参数 θ，使期望回报最大化：

∇_θ J(θ) = E_τ~π_θ [Σ_t ∇_θ log π_θ(a_t|s_t) · G_t]
策略梯度定理：沿着高回报轨迹的方向更新策略

REINFORCE 的直觉：如果一个动作序列获得了高回报 G_t，就增加这些动作的概率；反之就降低。问题是高方差——同一策略生成的不同轨迹回报差异极大，导致梯度估计不稳定。

Actor-Critic 方法

Actor-Critic 结合了 Value-Based 和 Policy-Based 的优势：

组件	角色	学习内容	在 LLM RL 中
Actor（演员）	决定做什么	策略 π_θ(a\|s)	LLM 本身（生成 token）
Critic（评论家）	评估做得好不好	价值函数 V_φ(s)	价值网络（评估生成质量）

Actor 更新：∇_θ J(θ) = E [∇_θ log π_θ(a|s) · A(s,a)]
Critic 更新：min_φ E [(V_φ(s) - G_t)²]
优势函数 A(s,a) = Q(s,a) - V(s) 由 Critic 估计，大幅降低方差

关键改进——GAE（Generalized Advantage Estimation）：

Â_t^GAE = Σ_{l=0}^∞ (γλ)^l δ_{t+l}
其中 δ_t = r_t + γV(s_{t+1}) - V(s_t)（TD 残差）
λ 控制偏差-方差权衡：λ=0 低方差高偏差，λ=1 高方差低偏差

RL 算法演进时间线

1989

Q-Learning

Watkins 提出表格型 Q-Learning，奠定 Value-Based RL 基础

1992

REINFORCE

Williams 提出策略梯度算法，开创 Policy-Based RL

2000

Actor-Critic

Konda & Tsitsiklis 统一 Value 和 Policy 方法

2015

DQN / TRPO

DeepMind 的 DQN 和 Schulman 的信赖域策略优化

2017

PPO

Schulman 提出 PPO，简化 TRPO 同时保持稳定性，成为最流行的 RL 算法

2022

InstructGPT / RLHF

OpenAI 用 PPO + 人类反馈训练 InstructGPT，开创 LLM 对齐新范式

2023

DPO

斯坦福提出直接偏好优化，绕过奖励模型和 RL 训练

2024

GRPO / RLVR

DeepSeek 提出 GRPO，配合可验证奖励训练推理模型

2025

DAPO / Dr.GRPO

GRPO 的改进变体：无 KL 约束、动态采样、token 级归一化

核心算法

Section 02: Policy Gradient 家族

REINFORCE → TRPO → PPO — 从不稳定到可控的策略优化之路

Policy Gradient（策略梯度）方法是现代 LLM RL 的基础。其核心思想简洁而优雅：直接参数化策略函数 π_θ，通过梯度上升最大化期望回报。

策略梯度定理

目标函数 J(θ) = E_{τ~π_θ} [R(τ)] = E_{τ~π_θ} [Σ_t r_t]

策略梯度 ∇_θ J(θ) = E_{τ~π_θ} [Σ_t ∇_θ log π_θ(a_t|s_t) · Â_t]

直觉好的动作 (Â_t > 0) → 增加概率；差的动作 (Â_t < 0) → 降低概率

TRPO（Trust Region Policy Optimization, 2015）

REINFORCE 的问题是每步更新幅度不可控——太大导致策略崩溃，太小则收敛慢。TRPO 引入信赖域约束：

max_θ E_{s,a~π_old} [π_θ(a|s) / π_old(a|s) · Â(s,a)]
subject to: KL(π_old || π_θ) ≤ δ
限制新旧策略的 KL 散度不超过 δ，保证更新幅度可控

TRPO 的理论保证很好，但实现复杂——需要计算自然梯度和共轭梯度法求解约束优化问题。这促使了更简洁的 PPO 的诞生。

三种方法的对比

方法	更新规则	稳定性	实现复杂度	样本效率
REINFORCE	原始策略梯度	低（高方差）	最简单	低（on-policy）
TRPO	KL 约束优化	高（理论保证）	复杂（自然梯度）	中等
PPO	Clip 近似约束	高（工程鲁棒）	简单	中等

核心算法

Section 03: PPO 完整详解

Proximal Policy Optimization — RLHF 的核心引擎，完整数学推导与实现细节

PPO（Proximal Policy Optimization, 2017）由 John Schulman 提出，是当前最广泛使用的 RL 算法。InstructGPT、ChatGPT 的对齐训练都基于 PPO。其核心优势：实现简单、训练稳定、超参数鲁棒。

PPO-Clip 目标函数

PPO 的关键创新是用 Clipping 替代 TRPO 的硬约束，以一种简洁的方式防止过大的策略更新：

概率比 r_t(θ) = π_θ(a_t|s_t) / π_{θ_old}(a_t|s_t)

PPO-Clip 目标 L^CLIP(θ) = E_t [min(r_t(θ) · Â_t, clip(r_t(θ), 1-ε, 1+ε) · Â_t)]

完整目标（含价值损失和熵正则） L(θ) = L^CLIP(θ) - c₁ · L^VF(θ) + c₂ · S[π_θ]

Clip 的直觉：

• 当 Â_t > 0（好动作）：r_t 被裁剪到最大 1+ε，防止概率增加过多
• 当 Â_t < 0（差动作）：r_t 被裁剪到最小 1-ε，防止概率降低过多
• ε 通常取 0.1-0.2。效果等价于 TRPO 的信赖域，但无需求解约束优化

PPO 在 LLM 中的四个模型

在 RLHF 的 PPO 训练中，需要同时维护四个模型：

模型	角色	是否更新	显存占用
Actor（策略模型）	生成回答的 LLM	✅ 更新	完整模型大小
Critic（价值模型）	估计每个 token 位置的价值	✅ 更新	完整模型大小
Reference Model	KL 散度的参考基准	❌ 冻结	完整模型大小
Reward Model	评估回答质量	❌ 冻结	完整模型大小

PPO 的显存瓶颈：4 个模型 × 70B 参数 = 280B 参数需同时在 GPU 上。这就是为什么 RLHF/PPO 训练极其昂贵，也是 DPO（不需要 Reward Model 和 Critic）和 GRPO（不需要 Critic）诞生的动机。

PPO 训练循环（伪代码）

# PPO for LLM alignment (simplified)
for epoch in range(num_epochs):
    # 1. 采样阶段：Actor 生成回答
    prompts = sample_batch(prompt_dataset)
    responses = actor.generate(prompts)

    # 2. 评估阶段：计算奖励和价值
    rewards = reward_model(prompts, responses)
    values = critic(prompts, responses)
    ref_logprobs = reference_model.logprobs(responses)

    # 3. 计算 KL 惩罚后的奖励
    kl_penalty = β * (actor_logprobs - ref_logprobs)
    adjusted_rewards = rewards - kl_penalty

    # 4. 计算 GAE 优势估计
    advantages = compute_gae(adjusted_rewards, values, γ, λ)

    # 5. PPO 更新（多个 mini-batch）
    for mini_batch in split(advantages, K):
        ratio = actor.logprobs(responses) / old_logprobs
        clipped = clip(ratio, 1-ε, 1+ε)
        actor_loss = -min(ratio * advantages, clipped * advantages)
        critic_loss = (critic(responses) - returns)²
        loss = actor_loss + c1 * critic_loss - c2 * entropy
        loss.backward()
        optimizer.step()
  

PPO 的关键超参数

超参数	典型值	作用
ε (clip range)	0.2	控制策略更新幅度
β (KL 系数)	0.01-0.1	平衡奖励最大化和偏离控制
γ (折扣因子)	1.0	LLM 中通常不折扣（整个回答同等重要）
λ (GAE)	0.95	优势估计的偏差-方差权衡
K (更新轮数)	4	每批数据上的 PPO 更新次数
lr (学习率)	1e-6 ~ 5e-6	LLM PPO 需要极小学习率

LLM 对齐

Section 04: RLHF 完整流程

从 InstructGPT 到 ChatGPT — 三阶段训练管线与奖励模型设计

RLHF（Reinforcement Learning from Human Feedback）是将人类偏好转化为 RL 训练信号的方法论。2022 年 OpenAI 的 InstructGPT 论文将其推向主流——一个 1.3B 参数的 RLHF 模型被用户偏好超过了 175B 的 GPT-3。

三阶段训练管线

SFT（有监督微调）

在高质量 prompt-response 对上微调预训练模型。数据来源：人工编写的示例（10K-100K 条）。目标：让模型学会指令跟随的基本格式和风格。

Reward Model 训练

收集人类偏好数据（对同一 prompt 的多个 response 进行排序），训练 Bradley-Terry 奖励模型。RM 学习预测人类更喜欢哪个回答。通常使用 SFT 模型的最后一层替换为标量输出头。

PPO 强化学习

使用 PPO 算法优化 SFT 模型，以最大化 Reward Model 的评分，同时通过 KL 散度约束防止偏离太远。这一步最昂贵（4 个模型同时在线），也最容易出问题。

奖励模型（Reward Model）设计

RM 基于 Bradley-Terry 模型——给定两个回答 y_w（更好）和 y_l（更差），模型学习预测偏好概率：

P(y_w > y_l | x) = σ(r(x, y_w) - r(x, y_l))
损失：L_RM = -E[log σ(r(x, y_w) - r(x, y_l))]
只有奖励差值有意义，绝对值无意义（可以加任意常数）

RM 的常见问题：

• 分布外泛化差：RM 在训练分布内准确，但 PPO 会把策略推到分布外
• 奖励黑化（Reward Hacking）：模型找到 RM 的漏洞（如更长回答得分更高）
• 标注者不一致：不同标注者对同一对比较给出不同偏好

Process RM vs Outcome RM

类型	评估粒度	信号密度	适用场景
Outcome RM	最终答案正确性	稀疏（整体一个分数）	对话对齐、通用任务
Process RM (PRM)	每个推理步骤的正确性	密集（每步一个分数）	数学推理、代码生成

PRM 的优势：OpenAI 的研究表明（"Let's Verify Step by Step", 2023），PRM 在数学推理中显著优于 ORM——因为它能识别哪一步出错，提供更精确的训练信号。但 PRM 的标注成本极高（需要逐步评估推理链）。

RLHF 的里程碑：InstructGPT (2022) 证明了 RLHF 的威力——1.3B 模型通过 RLHF 在用户评估中击败了 175B 的 GPT-3（100x 参数差距）。ChatGPT (2022.11) 的发布更是将 RLHF 推向了全球聚光灯。Anthropic 的 Claude 系列则在 RLHF 基础上发展了 Constitutional AI (RLAIF)。

无 RL 对齐

Section 05: DPO 与偏好优化

Direct Preference Optimization — 将 RL 问题转化为分类问题

DPO（Direct Preference Optimization, 2023）是斯坦福提出的革命性方法。核心洞察：最优奖励函数可以用最优策略的闭式解表示，因此可以绕过奖励模型训练和 PPO，直接在偏好数据上优化策略。

数学推导

Step 1: RLHF 的目标 max_π E[r(x,y)] - β · KL(π || π_ref)

Step 2: 最优策略的闭式解 π*(y|x) = π_ref(y|x) · exp(r(x,y) / β) / Z(x)

Step 3: 反解奖励函数 r(x,y) = β · log(π*(y|x) / π_ref(y|x)) + β · log Z(x)

Step 4: 代入 Bradley-Terry，Z(x) 被消去 L_DPO = -E[log σ(β(log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))]

最终的 DPO 损失函数只需要：策略模型 π_θ、参考模型 π_ref、偏好数据 (x, y_w, y_l)。不需要单独的奖励模型和 PPO 训练。

DPO vs PPO/RLHF 对比

维度	RLHF (PPO)	DPO
需要的模型数	4 个（Actor, Critic, Ref, RM）	2 个（Policy, Ref）
训练稳定性	不稳定（RL 固有问题）	稳定（等价于分类）
超参数敏感度	高（ε, β, lr, GAE λ...）	低（主要是 β）
计算成本	4x 模型 + 采样开销	2x 模型，无采样
数据利用	Online（实时采样新数据）	Offline（固定数据集）
性能上限	更高（在线探索）	受限于偏好数据质量

DPO 的变体

变体	改进点	适用场景
IPO	平方损失替代 log-sigmoid，防止无界优化	需稳定收敛
KTO	前景理论，支持非配对反馈（点赞/踩）	大量二元反馈数据
ORPO	消除参考模型，SFT+偏好合一	资源受限
SimPO	用 response 长度归一化的 log-prob 作为隐式奖励	长度敏感任务
Online DPO	在线采样新数据替代离线数据集	追求更高性能

DPO 的局限与 Online RL 的回归：DPO 是 Offline 方法——它只能从固定的偏好数据中学习，不能探索新策略。这意味着 DPO 的性能上限受限于偏好数据的质量和多样性。2024-2025 年的趋势是回归 Online RL（如 GRPO），因为 Online 方法可以生成新数据、探索新策略，突破偏好数据的天花板。

2024-2025 前沿

Section 06: GRPO 与 RLVR

Group Relative Policy Optimization + 可验证奖励 — 推理模型训练的核心技术

GRPO（Group Relative Policy Optimization）是 DeepSeek 于 2024 年提出的算法，是 2024-2025 年最重要的 RL 创新之一。GRPO + RLVR 的组合使 DeepSeek R1 成为首个通过纯 RL 获得强大推理能力的开源模型。

GRPO 核心思想

GRPO 的关键创新：用组内相对奖励替代 Critic 模型。对同一个 prompt 采样 K 个响应，计算组内归一化优势：

对 prompt x，采样 K 个响应: {y_1, y_2, ..., y_K} ~ π_θ(·|x)
计算每个响应的奖励: {r_1, r_2, ..., r_K}
组内归一化优势: Â_i = (r_i - mean(r)) / (std(r) + ε)

GRPO 目标: L = E [min(ρ_i · Â_i, clip(ρ_i, 1-ε, 1+ε) · Â_i) - β · KL(π_θ || π_ref)]
其中 ρ_i = π_θ(y_i|x) / π_{old}(y_i|x)

GRPO vs PPO

维度	PPO	GRPO
Critic 模型	需要（与 Actor 等大）	不需要
显存占用	4x 模型	~2x 模型 + K 个采样
优势估计	GAE（需 Critic V(s)）	组内归一化
方差控制	Critic 基线	组内 mean 基线
适用场景	通用 RL、对话对齐	推理任务（数学、代码）
代表模型	ChatGPT, Claude	DeepSeek R1

RLVR（RL with Verifiable Rewards）

RLVR 是 GRPO 的"灵魂伴侣"——提供可自动验证的奖励信号，完全绕过人类标注和学习型奖励模型：

奖励来源	原理	示例
数学验证器	检查最终答案是否等于标准答案	"42" == "42" → reward = 1
代码执行器	运行代码检查测试用例是否通过	pass@k 测试 → reward = pass_rate
形式验证	逻辑推理的自动证明检查	Lean4 / Coq 证明验证
规则匹配	检查输出格式是否正确	JSON 格式校验 → reward = valid

RLVR 的革命性意义：传统 RLHF 需要昂贵的人类标注（~$10-50 per comparison）。RLVR 的奖励是免费、无限且完全准确的。这使得大规模 RL 训练成为可能——DeepSeek R1 在数学和代码任务上训练了数百万轮 GRPO + RLVR，成本远低于同等规模的 RLHF。

GRPO 的改进变体（2025）

变体	改进点	来源
DAPO	去除 KL 约束 + clip-higher 防止熵坍缩 + 动态采样 + token 级归一化	ByteDance, 2025
Dr. GRPO	移除方差归一化（仅用 mean 归一化），简化实现	2025
GSPO	Group Shuffled Policy Optimization，改进组内比较方式	2025

推理革命

Section 07: 推理模型（Reasoning Model）训练

OpenAI o1/o3、DeepSeek R1 — RL 如何教会模型"思考"

2024-2025 年，AI 领域最大的突破之一是推理模型的兴起。这些模型通过 RL 训练获得了"深度思考"的能力——在回答问题前生成长链推理过程（Chain of Thought），显著提升了数学、编程和逻辑推理的准确率。

两大代表模型

OPENAI

o1 / o3

首个推理模型（2024.9）。通过大规模 RL 训练学会隐式搜索（implicit search via CoT）。o3 使用 10x 更多训练计算，引入 deliberative alignment。训练细节未公开，推测使用 Outcome-Based RL + 可能的 PRM。

DEEPSEEK

首个开源推理模型（2025.1）。使用 GRPO + RLVR 纯 RL 训练。R1-Zero 展示了无需 SFT 直接 RL 也能涌现推理能力。完全开源训练细节和权重。

DeepSeek R1 的训练流程

R1-Zero：纯 RL 实验

从 DeepSeek-V3-Base（未经 SFT）直接用 GRPO + RLVR 训练。惊人发现：模型自发涌现出 Chain-of-Thought、自我验证、反思等推理行为——无需人类示范。

冷启动数据收集

R1-Zero 的输出格式混乱，语言混杂。收集少量高质量 CoT 数据（~数千条）进行 SFT，建立良好的输出格式和语言习惯。

推理导向 RL

在冷启动 SFT 基础上进行大规模 GRPO + RLVR 训练。奖励来源：数学答案验证、代码测试用例、规则匹配。训练数据覆盖数学、编程、科学推理等。

拒绝采样 + SFT

从 RL 模型中采样大量推理轨迹，筛选高质量数据。混合推理数据和通用数据进行 SFT，恢复通用能力（写作、对话等）。

全场景 RL

最后一轮 RL 同时优化推理任务（RLVR）和通用任务（基于 RM 的 RLHF），实现推理与通用能力的统一。

关键发现：RL 的涌现能力

DeepSeek R1-Zero 展示了几个令人惊讶的涌现现象：

• "Aha moment"：训练过程中模型突然学会自我反思（"Wait, let me reconsider..."），推理准确率急剧提升
• 推理长度自适应：模型学会对简单问题用短推理、对复杂问题用长推理
• 自我验证：模型自发学会在得出答案后检查自己的推理过程
• 语言混合：R1-Zero 自发切换中英文推理（因为无格式约束），反映了 RL 优化的"自由探索"

Test-Time Compute Scaling

推理模型引入了一个新范式：推理时增加计算量可以提升性能。与传统的"大模型更好"不同，现在"想更久也更好"。

Test-Time Scaling 策略：
1. 更长的 CoT：让模型思考更多步（更多 token）
2. Best-of-N：采样 N 个回答，用验证器选最优
3. Beam Search over CoT：对推理链进行 beam search
o1/o3 的推理能力部分来自推理时的大量计算

多智能体

Section 08: 多智能体强化学习（MARL）

Self-Play、协作与竞争、LLM Debate — 多个 Agent 如何通过 RL 交互学习

多智能体强化学习（MARL）研究多个智能体在共享环境中通过 RL 同时学习的问题。在 LLM 时代，MARL 有两个重要应用方向：Self-Play 自我博弈和LLM Debate 辩论对齐。

经典 MARL 里程碑

系统	年份	环境	方法	成就
AlphaGo	2016	围棋	MCTS + Self-Play RL	击败世界冠军李世乭
AlphaZero	2017	围棋/象棋/将棋	纯 Self-Play（无人类数据）	从零学习超越所有先前 AI
OpenAI Five	2019	Dota 2	PPO + Self-Play	击败世界冠军队伍
AlphaStar	2019	StarCraft II	Population-Based Training	达到大师级水平
Cicero	2022	Diplomacy	RL + 自然语言策略	在需要协作/欺骗的游戏中达到人类水平

Self-Play 在 LLM 中的应用

Self-Play是让模型与自身的副本对弈，通过竞争或协作提升能力。在 LLM 领域的应用：

• SPIN（Self-Play Fine-Tuning）：模型生成回答，然后自己学习区分"自己生成的"和"人类写的"回答。迭代进行，每轮模型都变得更接近人类水平
• LLM Debate：两个 LLM 就同一问题辩论，人类（或另一个 LLM）判断胜负。RL 训练让两个模型都学会更有说服力和更准确的论证
• RLVR 中的 Self-Play：DeepSeek R1 的 GRPO 本质上是一种 Self-Play——同一模型的多个采样相互比较

MARL 用于 AI 安全

AI Safety via Debate（Irving et al., 2018）：让两个 AI 围绕一个问题辩论，人类只需判断谁更有说服力（比直接评估 AI 回答容易得多）。如果辩论是零和博弈，理论上真实答案是纳什均衡——说谎者最终会被另一方揭穿。

这是一种可扩展监督（Scalable Oversight）方案：即使超级 AI 的回答人类无法直接评估，通过观看两个 AI 的辩论仍然可以识别哪个更正确。

未来方向

Section 09: 前沿趋势与未来方向

2025 年 RL for AI 的最新发展和开放问题

2025 年 RL for LLM 的技术栈

2025 年，业界已形成相对成熟的模块化后训练栈：

SFT（指令跟随）

高质量指令数据微调，建立基本格式和风格。LIMA 证明 1K 高质量数据可能就够。

偏好优化（对齐）

DPO / SimPO / KTO 用于通用对齐——有用性、安全性、格式遵循。Offline 方法，成本低。

RLVR（推理能力）

GRPO / DAPO + 可验证奖励，用于数学、代码、逻辑推理。Online 方法，可超越训练数据。

安全 RL（红线对齐）

Constitutional AI / Rule-Based RL 用于安全边界。确保模型不产生有害内容。

前沿研究方向

方向	核心问题	代表工作
Generalized RLVR	将可验证奖励从数学/代码扩展到更多领域	使用 LLM-as-Judge 作为弱验证器
Process Supervision	细粒度推理步骤奖励，而非只看最终答案	OpenAI PRM, Math-Shepherd
RL for World Models	让 LLM 通过 RL 学习世界模型和因果推理	模型内部推理的 RL 优化
Efficient RL Training	降低 RL 训练成本，支持更长推理	DAPO、异步采样、参数高效 RL
Superalignment	用弱模型监督强模型	Weak-to-Strong Generalization
Multi-Objective RL	同时优化有用性、安全性、推理能力	Pareto-DPO, 多奖励模型
RL for Agents	训练 LLM Agent 使用工具、完成任务	WebAgent, SWE-Agent RL training

开放问题

1. RL 是否真的教会了推理？最近的研究（"RLVR Makes Models Faster, Not Smarter"）提出争议：RLVR 可能只是在放大预训练中已有的推理能力，而非创造新能力。模型学会了更好地调用已有知识，但知识本身来自预训练。

2. 奖励信号的可扩展性：RLVR 在数学和代码上效果好，因为有精确验证器。但对于创意写作、策略建议等无法精确验证的任务，如何设计有效的奖励信号仍是开放问题。

3. RL 训练的安全性：强大的 RL 训练可能导致模型学会"钻空子"（reward hacking）。推理模型尤其危险——它们可能学会生成看似正确但实际错误的推理链来获得奖励。

4. 计算可持续性：推理模型的训练和推理成本都极高。o3 的推理费用是 o1 的数倍，每个问题可能消耗数千个 token 的"思考"过程。如何降低成本是实际部署的关键。

总结：RL 正在从 LLM 训练的"可选步骤"变为"核心引擎"。从 RLHF 的对齐对话质量，到 GRPO+RLVR 的推理能力训练，RL 已经成为让 LLM 超越"模式匹配"走向"真正推理"的关键技术。2025 年之后，RL 在 AI 中的地位只会更加重要。