**TLDR:**系统综述面向LRM的强化学习:梳理奖励设计(可验证/生成/稠密/无监督)、策略优化(PG/critic/离线/正则)、采样策略与训练资源,回顾自DeepSeek-R1以来的应用进展,并提出持续/记忆/模型驱动等未来方向与可扩展性挑战。
**TLDR:**提出将“解答汇聚”本身作为可学习的推理技能:先生成多解,再用AggLM在可验证奖励下经RL整合纠错与合并步骤;在数学基准上优于多数投票和打分选择,且更节省tokens,表明多数并非总是最佳。
**TLDR:**系统研究多智能体辩论的失效情形:异质能力或较弱代理的加入常使准确率随回合增加而下降;弱者会扰乱强者,过长讨论也会退化。论文刻画影响因素并提示需谨慎设计辩论与激励以抑制随从式错误。
**TLDR:**提出统一的交互式RL框架AgentGym-RL与逐步扩展交互回合的ScalingInter-RL,用于从零训练多轮决策型LLM代理;覆盖多场景并支持主流算法,在27项任务上与商用模型相当或更优,计划开源代码与数据。
**TLDR:**提出原生并行思考(ParaThinker):让模型同步生成多条推理路径并聚合为更优答案,绕开顺序推理的“隧道视野”瓶颈;在推理基准上显著提升准确率且延迟开销小,揭示“宽度”优于单纯“深度”的测试时扩展范式。
提出ACE-RL:将指令分解为可验证的细粒度约束,按满足度构造奖励并用RL优化长文生成,无需偏好对比数据。WritingBench上较SFT/RL分别提升20.7%/7.3%,并在多场景写作超过GPT-4o,显著提升长文质量与一致性。
面向RAG推理提出REFRAG解码:以预计算压缩块嵌入替代原始检索token,利用稀疏注意力结构“压缩-感知-扩展”以降KV与TTFT开销;在多任务中保持精度的同时将首token时延提速30.85×(较前作3.75×),并将上下文扩展至16×。
实证揭示RL微调LLM的“两阶段”层级推理:先巩固低层执行,再转向高层策略规划;据此提出HICRA,将优化聚焦于高影响规划token,并以语义熵作为探索指针。方法在多基准超越GRPO等强基线,解释“aha”与“长度扩展”等现象。
针对VLA高成本,提出VLA-Adapter:系统分析感知-动作桥接条件,并以Bridge Attention在策略侧自适应注入最佳条件;仅0.5B骨干、无需机器人预训练即可达SOTA且推理更快;单张消费级GPU 8小时可训练强力VLA,显著降低门槛。
提出去中心化异步后训练算法SAPO:各节点保有自策略,跨节点共享并采样回合以实现“经验共享”,无需同步与同构假设;在受控实验中累计奖励提升最高94%,并展示真实大规模测试网的可行性与扩展性。
**Authours:** Tong Zheng, (not listed) **TLDR:** 提出用于激发并内化“并行思维”的RL框架Parallel-R1:先在易题用SFT灌输格式,再在难题用RL探索,并通过交替奖励在准确率与结构并行间折中;在MATH/AMC/AIME上显著提升,并观察训练策略由“探索”转向“验证”。
**Authours:** Haozhan Li, Ning Ding **TLDR:** 面向机器人VLA,基于veRL构建高效在线RL:并行多环境渲染、VLA特定轨迹采样与优化,使OpenVLA-OFT在LIBERO与RoboTwin上超越SFT,并在真实任务中更稳健;同时报告训练中涌现的“pushcut”新动作模式。
**Authours:** Jiawei Wang, Yang Wang **TLDR:** 提出熵调制策略梯度(EMPG):按每步不确定性缩放梯度——放大全对的自信动作、强惩自信错误、减弱高熵探索噪声,并引入“未来清晰度”奖励引导可预测轨迹;在WebShop、ALFWorld、Deep Search显著优于强基线。
**Authours:** Sergey Pletenev, Sergey Pletenev **TLDR:** 探索用LLM从中性文本合成“有毒”数据以训练去毒化模型。结果显示纯合成数据导致明显降级,根因是词汇多样性匮乏:模型复用少数脏词,难以覆盖人类毒性语言的细粒度变化;当前仍需依赖人工标注数据。
**Authours:** Haozhe Wang, Ge Zhang **TLDR:** 提出REER:从高质量开放式答案出发,反向搜索能解释它的分步思考轨迹,以梯度无关方式规模化合成“深思”数据。构建DeepWriting-20K并训练DeepWriter-8B,在多项写作基准上接近或部分超越商用模型,证明无需RL/蒸馏亦可习得深推理。