2026-03-09 - Weekly Papers

Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Authors: Jiyuan Wang, Chunyu Lin

Affiliation: BJTU, AMap Alibaba Group, NTU

论文针对 3D 场景编辑多视角不一致和缺少配对数据的问题，提出 RL3DEdit：用 3D 基础模型 VGGT 给出置信图与位姿误差奖励，在单次生成中通过强化学习把 2D 编辑先验约束到 3D 一致流形。实验显示其在编辑质量与效率上优于现有方法。

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Authors: Ted Zadouri, Tri Dao

Affiliation: Princeton University, Together AI

面向 Blackwell 平台“张量算力增长快于带宽/指数单元”的不对称扩展，FlashAttention-4 联合优化算法与内核流水：异步 MMA、大 tile、软件指数与条件重标定、2-CTA/张量内存协同。B200 上较 cuDNN 9.13 最多提速 1.3 倍，峰值达 1613 TFLOPs/s。

Scalable Training of Mixture-of-Experts Models with Megatron Core

Authors: Zijie Yan, June Yang

Affiliation: NVIDIA

该技术报告系统总结 Megatron Core 在 MoE 大规模训练中的端到端协同优化：内存侧重计算与卸载、通信侧分发与重叠、计算侧 Grouped GEMM/融合/CUDA Graph，并支持并行折叠、FP8/NVFP4 与长上下文。实测在 GB300/GB200 上达到高吞吐，为万卡级训练提供可复用工程方案。

OpenClaw-RL: Train Any Agent Simply by Talking

Authors: Yinjie Wang, Mengdi Wang

Affiliation: Gen-Verse

论文提出 OpenClaw-RL，把用户回复、工具输出、终端/GUI 状态变化统一视为 next-state 信号，用同一异步训练环路同时做在线服务、奖励评估和策略更新。方法结合 PRM 标量奖励与 OPD 方向性蒸馏，在个人助手与通用代理场景均显示出持续自提升能力。

How Far Can Unsupervised RLVR Scale LLM Training?

Authors: Bingxiang He, Bowen Zhou

Affiliation: Tsinghua University, Shanghai AI Lab

该文系统分析无监督 RLVR 的可扩展性，给出统一理论说明内在奖励方法本质上会“锐化初始分布”，当置信度与正确性错配时会出现性能先升后崩。作者提出 Model Collapse Step 作为可训练性指标，并展示基于外在可验证信号的方法可能突破该上限。

Lost in Backpropagation: The LM Head is a Gradient Bottleneck

Authors: Nathan Godey, Yoav Artzi

Affiliation: Cornell University

论文指出语言模型输出层在反向传播中存在结构性“梯度瓶颈”：从词表维度到隐藏维度的投影会压缩并扭曲监督信号。作者结合理论分析与实证实验显示，LM head 可抑制 95%-99% 的梯度范数，使训练方向显著偏离最优更新，导致收敛变慢甚至让简单模式难以学习。该结论提示当前 LLM 训练效率受限于输出层设计，需要探索新的 LM head 架构。

📚 Weekly Papers