📚 Weekly Papers

|Archive
2026-03-16
2026-03-16 ~ 2026-03-22
Temporal Straightening for Latent Planning
Authors: Ying Wang, Mengye Ren
Affiliation: New York University
论文研究潜在世界模型中的规划表征问题,指出预训练视觉特征常含与规划无关信息且轨迹弯曲,导致优化困难。作者提出 temporal straightening,在联合学习编码器与预测器时加入曲率正则,使潜在轨迹更“平直”,让欧氏距离更接近真实测地距离并改善规划目标条件数。实验表明该方法能显著提升梯度式规划稳定性与目标到达成功率。
AI Can Learn Scientific Taste
Authors: Jingqi Tong, Xipeng Qiu
Affiliation: Fudan University, Shanghai Innovation Institute, OpenMOSS Team
论文提出用社区反馈训练 AI 的“科研品味”:先基于 70 万组高低被引论文对训练 Scientific Judge 学习判断研究想法潜力,再把该评审器作为奖励模型训练 Scientific Thinker 生成高潜力课题。结果显示其在多项评测中超过多种强基线模型,并在跨年份、跨领域与评审偏好迁移上保持优势,说明 AI 可学习并内化科研价值判断。
OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data
Authors: Yuwen Du, Rui Ye
Affiliation: Shanghai Jiao Tong University
OpenSeeker 面向深度检索智能体的数据瓶颈,提出两项核心方法:可控事实驱动的多跳问答合成,以及基于回溯总结的轨迹去噪,从而以较小规模高质量数据训练出强搜索代理。作者开源了训练数据与模型权重,实验表明仅用约 1.17 万样本和单次 SFT 训练,就在多项检索基准上显著优于已有开源方案,并在中文任务上接近或超过部分闭源系统。
Grounding World Simulation Models in a Real-World Metropolis
Authors: Junyoung Seo, Jin-Hwa Kim
Affiliation: KAIST AI
论文提出 Seoul World Model,将世界模型从“想象场景”推进到“真实城市”建模:通过检索增强把街景图像作为外部锚点,结合跨时间配对、合成轨迹数据与视角插值,缓解时序错位和稀疏采样问题。另引入 Virtual Lookahead Sink 在长时生成中持续重接地,实验证明其在首尔、釜山与安娜堡等城市上可生成更空间一致、时间连贯且长程稳定的真实城市场景视频。
Attention Residuals
Authors: Kimi Team, Kimi Team
Affiliation: Moonshot AI (Kimi Team)
作者指出传统 PreNorm 残差的等权累加会导致层深增加时表征被稀释,提出 Attention Residuals 让每层以注意力方式选择性聚合历史层输出,并进一步给出更高效的 Block AttnRes 以降低训练显存与通信开销。缩放实验和消融显示该机制在不同参数规模上稳定增益;在 Kimi Linear 大模型预训练中还改善了深层梯度与激活分布,并带来下游任务整体提升。
MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification
Authors: MiroMind Team, MiroMind Team
Affiliation: MiroMind
论文提出面向复杂长链任务的研究智能体 MiroThinker-1.7 与强化版本 H1。前者通过 agentic mid-training 提升规划、上下文推理与工具交互稳定性;后者把局部与全局验证嵌入推理过程,在中间步骤纠偏并审计整条证据链。实验显示其在网页研究、科学推理与金融分析等深度研究基准上取得领先表现,并开源主模型与 mini 版本。
InCoder-32B: Code Foundation Model for Industrial Scenarios
Authors: Jian Yang, Wayne Xin Zhao
Affiliation: Beihang University, IQuest Research
InCoder-32B 是面向工业场景的 32B 代码基础模型,覆盖芯片设计、GPU 内核优化、嵌入式与编译优化、3D 建模等任务。作者采用从通用代码预训练到工业数据退火、上下文扩展中训和执行验证后训的完整流水线,在保持通用编程竞争力的同时,在多项工业基准上建立了强开源基线,强调“工业可用”的代码智能能力。
Mixture-of-Depths Attention
Authors: Lianghui Zhu, Xinggang Wang
Affiliation: School of EIC, Huazhong University of Science and Technology, ByteDance Seed
论文提出 Mixture-of-Depths Attention,通过在注意力中引入跨深度可见关系,让当前查询按需利用不同层的 K/V 表征,而非仅依赖单层上下文。该机制旨在增强信息流动与层间协同,提升模型对长程依赖和复杂语义结构的建模能力。结果表明该方法在效率与性能之间取得更优平衡,可作为解码器架构的通用增强模块。
Video-CoE: Reinforcing Video Event Prediction via Chain of Events
Authors: Qile Su, Xiangxiang Chu
Affiliation: AMAP, Alibaba Group
论文面向视频事件预测(VEP)中“看得到过去、难预测未来”的问题,先系统评测主流多模态大模型在该任务上的短板,再提出 Chain of Events(CoE)框架,通过构造时序事件链强化模型对视觉证据与事件逻辑的联合建模。实验显示该方法在公开基准上显著优于现有开源与商业模型,刷新 VEP 任务性能。
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild
Authors: Peng Xia, Huaxiu Yao
Affiliation: UNC-Chapel Hill
MetaClaw 针对真实环境中智能体能力随任务分布漂移而老化的问题,提出“技能快速演化 + 机会式权重优化”的双通路持续学习框架:在线从失败轨迹提炼可复用技能,离线在用户空闲窗口进行 LoRA 强化更新,并通过版本机制避免奖励污染。结果在长期工作流基准上带来稳定增益,任务完成率与鲁棒性显著提升。
Mamba-3: Improved Sequence Modeling using State Space Principles
Authors: Aakash Lahoti, Albert Gu
Affiliation: Carnegie Mellon University
Mamba-3 从状态空间模型视角改进线性序列建模,提出更具表达力的离散化递推、复数态更新以及 MIMO 结构,在保持推理效率的同时提升状态跟踪与语言建模能力。实验表明其在检索、状态跟踪和下游任务上优于现有线性模型,并在性能-效率帕累托前沿取得更好平衡。
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning
Authors: Lorenzo Mur-Labadia, Adrien Bardes
Affiliation: FAIR at Meta, Universidad de Zaragoza
论文提出 V-JEPA 2.1,通过让可见与遮挡 token 同时参与的密集预测损失、跨层深度自监督、图像与视频统一 tokenizer 以及模型与数据规模扩展,显著提升视频自监督表示的时空一致性与语义结构。在 Ego4D、EPIC-KITCHENS、机器人抓取、导航和深度估计等任务上达到或刷新 SOTA,显示其在世界建模与密集视觉理解上的泛化能力。