📚 Weekly Papers

|Archive
2026-01-19
2026-01-19 ~ 2026-01-25
STEM: Scaling Transformers with Embedding Modules
Authors: Ranajoy Sadhukhan, Beidi Chen.
Affiliation: Carnegie Mellon University.
STEM提出一种“静态、按token索引”的细粒度稀疏化:将门控FFN的上投影替换为层内嵌入查表,门控与下投影保持稠密。该设计不需要运行时路由,支持CPU offload与异步预取,降低通信/访存开销并提升训练稳定性。在350M与1B规模上,相比稠密基线在知识与推理类基准取得增益,同时token索引的嵌入更便于可解释地做知识注入/编辑,并在长上下文下体现“测试时容量随序列长度增长”的效果。
Action100M: A Large-scale Video Action Dataset
Authors: Delong Chen, Théo Moutakanni.
Affiliation: Meta FAIR, HKUST.
Action100M发布了面向开放词汇动作理解的超大规模数据集:从约120万公开视频自动构建,覆盖约14.6年总时长,产生亿级时间片段的动作监督与丰富字幕。其流水线利用V-JEPA 2嵌入做层级时间切分,生成Tree-of-Captions多层级描述,并用推理模型GPT-OSS-120B在多轮Self-Refine中聚合证据,输出结构化标注(动作/角色/简详描述等)。基于该数据预训练VL-JEPA呈现稳定的数据规模收益与强零样本动作识别表现,为视频理解与世界建模提供新的数据底座。
EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience
Authors: Taofeng Xue, Xipeng Qiu.
Affiliation: Meituan.
提出 EvoCUA,通过“可规模化的合成交互经验”持续进化计算机使用智能体:构建可验证的合成引擎与高通量交互基础设施,用冷启动→筛选微调→强化学习的迭代范式积累经验并提升能力,在长时程电脑任务与通用能力评测上取得显著增益。
LLM-in-Sandbox Elicits General Agentic Intelligence
Authors: Daixuan Cheng, Wayne Xin Zhao.
Affiliation: GSAI, Renmin University of China, Microsoft Research.
把大模型放进具备终端/文件/执行能力的“虚拟电脑沙盒”,让它通过探索完成任务:无需额外训练即可在数学、理化、生医、长上下文理解等非代码任务上提升;并显著降低长上下文 token 消耗(最高约 8×)。还提出基于结果奖励的 RL 训练,让弱模型也学会有效探索与泛化。
HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
Authors: Haowei Zhang, Xipeng Qiu.
Affiliation: 未在摘要页标注(需查看论文正文)。
提出 HERMES,用“分层记忆”的方式复用 KV cache 来做实时视频流理解:把近期细粒度信息与长期概要记忆分层维护,在不训练或极少改动的前提下减少视频 token 与计算开销、降低延迟,同时尽量保持理解准确性,适合持续输入的流式场景。
The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
Authors: Zanlin Ni, Gao Huang.
Affiliation: LeapLab, Tsinghua University.
研究扩散语言模型的“任意生成顺序”悖论:表面更灵活,但会因熵退化/高温噪声等机制限制有效解空间覆盖,反而削弱数理与代码推理潜力。基于该发现提出 JustGRPO,放弃复杂的任意顺序适配,仅用简化的 GRPO 训练即可更有效激发推理能力,并在多项推理基准上验证。
Agentic Reasoning for Large Language Models
Authors: Tianxin Wei, Jingrui He.
Affiliation: 未在摘要页标注(需查看论文正文)。
一篇关于“Agentic Reasoning”的系统综述:把大模型从被动生成器扩展为能规划、调用工具、交互学习的智能体,按基础能力→自我演化→多智能体协作三层梳理方法谱系,并区分 in-context 编排与后训练(SFT/RL)两类路线;总结应用与基准,指出长期交互、世界模型、可扩展训练与治理等关键挑战。
Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
Authors: Hao Luo, Zongqing Lu.
Affiliation: 未在摘要页标注(需查看论文正文)。
提出 Being-H0.5 基础 VLA 模型,目标是在不同形态机器人之间实现强跨本体泛化。核心思路是“以人类交互轨迹为母语”的人本训练范式:通过大规模人类演示/机器人操作/视觉文本数据统一预训练,配合统一状态-动作建模与可移植的数据采集系统,实现跨平台零样本迁移与更稳健的长时程操控。
ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development
Authors: Jie Yang, Yining Zheng.
Affiliation: Fudan University.
提出 ABC-Bench,用真实后端工程流程评测代码智能体:不仅看写代码,还要求仓库级探索、依赖/环境配置、调试修复、服务部署与端到端可运行。基准以任务驱动的真实项目为载体,配套评测指标,系统揭示现有 Agent 在工程闭环能力上的短板,推动更贴近生产的代码智能体研究。
Your Group-Relative Advantage Is Biased
Authors: Fengkai Yang, Yikun Ban.
Affiliation: Beihang University, Peking University, Meituan.
针对基于组内相对优势的 RLVR/组对比训练,指出常用“组相对优势”估计存在系统性偏差,会影响学习信号与稳定性。论文分析偏差来源并给出修正/替代的估计或归一化策略,使训练更可靠、可控,并在推理类后训练设置中带来更稳健的收益。