📚 Weekly Papers

|Archive
2026-03-09
2026-03-09 ~ 2026-03-15
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
Authors: Jiyuan Wang, Chunyu Lin
Affiliation: BJTU, AMap Alibaba Group, NTU
论文针对 3D 场景编辑多视角不一致和缺少配对数据的问题,提出 RL3DEdit:用 3D 基础模型 VGGT 给出置信图与位姿误差奖励,在单次生成中通过强化学习把 2D 编辑先验约束到 3D 一致流形。实验显示其在编辑质量与效率上优于现有方法。
FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling
Authors: Ted Zadouri, Tri Dao
Affiliation: Princeton University, Together AI
面向 Blackwell 平台“张量算力增长快于带宽/指数单元”的不对称扩展,FlashAttention-4 联合优化算法与内核流水:异步 MMA、大 tile、软件指数与条件重标定、2-CTA/张量内存协同。B200 上较 cuDNN 9.13 最多提速 1.3 倍,峰值达 1613 TFLOPs/s。
Scalable Training of Mixture-of-Experts Models with Megatron Core
Authors: Zijie Yan, June Yang
Affiliation: NVIDIA
该技术报告系统总结 Megatron Core 在 MoE 大规模训练中的端到端协同优化:内存侧重计算与卸载、通信侧分发与重叠、计算侧 Grouped GEMM/融合/CUDA Graph,并支持并行折叠、FP8/NVFP4 与长上下文。实测在 GB300/GB200 上达到高吞吐,为万卡级训练提供可复用工程方案。
OpenClaw-RL: Train Any Agent Simply by Talking
Authors: Yinjie Wang, Mengdi Wang
Affiliation: Gen-Verse
论文提出 OpenClaw-RL,把用户回复、工具输出、终端/GUI 状态变化统一视为 next-state 信号,用同一异步训练环路同时做在线服务、奖励评估和策略更新。方法结合 PRM 标量奖励与 OPD 方向性蒸馏,在个人助手与通用代理场景均显示出持续自提升能力。
How Far Can Unsupervised RLVR Scale LLM Training?
Authors: Bingxiang He, Bowen Zhou
Affiliation: Tsinghua University, Shanghai AI Lab
该文系统分析无监督 RLVR 的可扩展性,给出统一理论说明内在奖励方法本质上会“锐化初始分布”,当置信度与正确性错配时会出现性能先升后崩。作者提出 Model Collapse Step 作为可训练性指标,并展示基于外在可验证信号的方法可能突破该上限。
Lost in Backpropagation: The LM Head is a Gradient Bottleneck
Authors: Nathan Godey, Yoav Artzi
Affiliation: Cornell University
论文指出语言模型输出层在反向传播中存在结构性“梯度瓶颈”:从词表维度到隐藏维度的投影会压缩并扭曲监督信号。作者结合理论分析与实证实验显示,LM head 可抑制 95%-99% 的梯度范数,使训练方向显著偏离最优更新,导致收敛变慢甚至让简单模式难以学习。该结论提示当前 LLM 训练效率受限于输出层设计,需要探索新的 LM head 架构。