2026-01-19 - Weekly Papers

STEM: Scaling Transformers with Embedding Modules

Authors: Ranajoy Sadhukhan, Beidi Chen.

Affiliation: Carnegie Mellon University.

STEM提出一种“静态、按token索引”的细粒度稀疏化：将门控FFN的上投影替换为层内嵌入查表，门控与下投影保持稠密。该设计不需要运行时路由，支持CPU offload与异步预取，降低通信/访存开销并提升训练稳定性。在350M与1B规模上，相比稠密基线在知识与推理类基准取得增益，同时token索引的嵌入更便于可解释地做知识注入/编辑，并在长上下文下体现“测试时容量随序列长度增长”的效果。

Action100M: A Large-scale Video Action Dataset

Authors: Delong Chen, Théo Moutakanni.

Affiliation: Meta FAIR, HKUST.

Action100M发布了面向开放词汇动作理解的超大规模数据集：从约120万公开视频自动构建，覆盖约14.6年总时长，产生亿级时间片段的动作监督与丰富字幕。其流水线利用V-JEPA 2嵌入做层级时间切分，生成Tree-of-Captions多层级描述，并用推理模型GPT-OSS-120B在多轮Self-Refine中聚合证据，输出结构化标注（动作/角色/简详描述等）。基于该数据预训练VL-JEPA呈现稳定的数据规模收益与强零样本动作识别表现，为视频理解与世界建模提供新的数据底座。

EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience

Authors: Taofeng Xue, Xipeng Qiu.

Affiliation: Meituan.

提出 EvoCUA，通过“可规模化的合成交互经验”持续进化计算机使用智能体：构建可验证的合成引擎与高通量交互基础设施，用冷启动→筛选微调→强化学习的迭代范式积累经验并提升能力，在长时程电脑任务与通用能力评测上取得显著增益。

LLM-in-Sandbox Elicits General Agentic Intelligence

Authors: Daixuan Cheng, Wayne Xin Zhao.

Affiliation: GSAI, Renmin University of China, Microsoft Research.

把大模型放进具备终端/文件/执行能力的“虚拟电脑沙盒”，让它通过探索完成任务：无需额外训练即可在数学、理化、生医、长上下文理解等非代码任务上提升；并显著降低长上下文 token 消耗（最高约 8×）。还提出基于结果奖励的 RL 训练，让弱模型也学会有效探索与泛化。

HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

Authors: Haowei Zhang, Xipeng Qiu.

Affiliation: 未在摘要页标注（需查看论文正文）。

提出 HERMES，用“分层记忆”的方式复用 KV cache 来做实时视频流理解：把近期细粒度信息与长期概要记忆分层维护，在不训练或极少改动的前提下减少视频 token 与计算开销、降低延迟，同时尽量保持理解准确性，适合持续输入的流式场景。

The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

Authors: Zanlin Ni, Gao Huang.

Affiliation: LeapLab, Tsinghua University.

研究扩散语言模型的“任意生成顺序”悖论：表面更灵活，但会因熵退化/高温噪声等机制限制有效解空间覆盖，反而削弱数理与代码推理潜力。基于该发现提出 JustGRPO，放弃复杂的任意顺序适配，仅用简化的 GRPO 训练即可更有效激发推理能力，并在多项推理基准上验证。

Agentic Reasoning for Large Language Models

Authors: Tianxin Wei, Jingrui He.

Affiliation: 未在摘要页标注（需查看论文正文）。

一篇关于“Agentic Reasoning”的系统综述：把大模型从被动生成器扩展为能规划、调用工具、交互学习的智能体，按基础能力→自我演化→多智能体协作三层梳理方法谱系，并区分 in-context 编排与后训练（SFT/RL）两类路线；总结应用与基准，指出长期交互、世界模型、可扩展训练与治理等关键挑战。

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

Authors: Hao Luo, Zongqing Lu.

Affiliation: 未在摘要页标注（需查看论文正文）。

提出 Being-H0.5 基础 VLA 模型，目标是在不同形态机器人之间实现强跨本体泛化。核心思路是“以人类交互轨迹为母语”的人本训练范式：通过大规模人类演示/机器人操作/视觉文本数据统一预训练，配合统一状态-动作建模与可移植的数据采集系统，实现跨平台零样本迁移与更稳健的长时程操控。

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

Authors: Jie Yang, Yining Zheng.

Affiliation: Fudan University.

提出 ABC-Bench，用真实后端工程流程评测代码智能体：不仅看写代码，还要求仓库级探索、依赖/环境配置、调试修复、服务部署与端到端可运行。基准以任务驱动的真实项目为载体，配套评测指标，系统揭示现有 Agent 在工程闭环能力上的短板，推动更贴近生产的代码智能体研究。

Your Group-Relative Advantage Is Biased

Authors: Fengkai Yang, Yikun Ban.

Affiliation: Beihang University, Peking University, Meituan.

针对基于组内相对优势的 RLVR/组对比训练，指出常用“组相对优势”估计存在系统性偏差，会影响学习信号与稳定性。论文分析偏差来源并给出修正/替代的估计或归一化策略，使训练更可靠、可控，并在推理类后训练设置中带来更稳健的收益。

📚 Weekly Papers