📚 Weekly Papers

|Archive
2026-03-30 ~ 2026-04-05
Latest file: 2026-03-30
Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models
Authors: Kaijin Chen, Xiang Bai
Affiliation: Huazhong University of Science and Technology, Kling Team, Kuaishou Technology
论文指出现有视频世界模型把场景当静态画布,目标离开视野后容易冻结或消失。作者提出“混合记忆”范式,并构建含 5.9 万片段的 HM-World 数据集与 HyDRA 检索式记忆架构,在动态主体一致性和整体生成质量上显著优于现有方法。
ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling
Authors: Yawen Luo, Tianfan Xue
Affiliation: MMLab, CUHK, Kling Team, Kuaishou Technology
针对多镜头视频生成交互性差、时延高的问题,ShotStream 将任务改写为基于历史上下文的因果“下一镜头”生成,并通过分布匹配蒸馏把双向模型蒸馏为因果学生。其全局/局部双缓存与两阶段自驱蒸馏可缓解跨镜头漂移和误差累积,实现单卡约 16 FPS 的实时生成。
Natural-Language Agent Harnesses
Authors: Linyue Pan, Hai-Tao Zheng
Affiliation: Shenzhen International Graduate School, Tsinghua University
论文将以往埋在控制器代码里的 agent harness 外化为可编辑自然语言工件,提出 NLAH 与配套运行时 IHR,用显式契约、可持久化产物和轻量适配器执行控制逻辑。作者在编程与计算机使用基准做可行性、模块消融和代码到文本迁移实验,验证了该范式的可移植与可研究性。
TAPS: Task Aware Proposal Distributions for Speculative Sampling
Authors: Mohamad Zbib, Hasan Abed Al Kader Hammoud
Affiliation: King Abdullah University of Science and Technology (KAUST), American University of Beirut (AUB)
论文研究 speculative decoding 的提案分布是否需要“任务匹配”。作者在数学推理与通用对话数据上训练轻量 drafter,发现不同训练分布会显著影响接受长度;推理数据更适合数学题,对话数据更适合聊天评测。相比权重平均,基于置信度的路由与 merged-tree 验证能更稳健地融合专用 drafter,并获得更高加速收益。
Meta-Harness: End-to-End Optimization of Model Harnesses
Authors: Yoonho Lee, Chelsea Finn
Affiliation: Stanford University
论文将 LLM 系统中的 harness(存取与组织上下文的代码)作为可优化对象,提出外循环搜索系统 Meta-Harness。其 agentic proposer 可访问历史候选代码、分数与执行轨迹,从而进行更有效的迭代。实验显示在文本分类、检索增强数学推理和 agentic coding 上,Meta-Harness 同时提升性能并降低上下文开销,证明自动化 harness engineering 可系统超过手工设计基线。
FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
Authors: Chiyu Ma, Jingren Zhou
Affiliation: Qwen Pilot Team, Alibaba Group
论文针对 ORM/GRPO 类方法在长链推理中的粗粒度 credit assignment 问题,提出 FIPO:在策略更新中引入折扣 future-KL,按 token 对后续轨迹影响重加权优势。该方法在 Qwen2.5-32B 上显著拉长 CoT 并提升 AIME 2024 准确率,显示密集优势设计可有效释放推理潜力。
CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence
Authors: Tianle Zeng, Hong Zhang
Affiliation: Shenzhen Key Laboratory of Robotics and Computer Vision, Southern University of Science and Technology
CARLA-Air 在单一 Unreal Engine 进程内统一了 CARLA 的城市场景与 AirSim 的多旋翼动力学,避免桥接协同仿真的时钟同步与一致性问题。平台兼容原生 Python API 与 ROS 2,支持多模态同步传感、空地协同任务、具身导航与强化学习训练,面向空地一体智能研究提供可复用基础设施。
LongCat-Next: Lexicalizing Modalities as Discrete Tokens
Authors: Meituan LongCat Team, Ziwen Wang
Affiliation: Meituan LongCat Team, Meituan
论文提出 DiNA 框架,将文本、视觉、音频统一到离散 token 空间做原生自回归建模;并以 dNaViT 实现任意分辨率视觉离散化与重建。基于该范式构建的 LongCat-Next 在理解与生成任务上兼顾表现,缓解离散视觉在理解侧的性能瓶颈,展示统一多模态词汇化建模的可行性。
Shor’s algorithm is possible with as few as 10,000 reconfigurable atomic qubits
Authors: Madelyn Cain, Dolev Bluvstein
Affiliation: Oratomic, California Institute of Technology
论文结合高码率容错码、高效逻辑指令集与电路优化,给出 Shor 算法在密码学相关规模上可由约 1 万个可重构中性原子量子比特实现的资源估计。作者进一步分析了 2.6 万比特下离散对数与 RSA-2048 分解的时间量级,说明中性原子体系在容错量子计算落地上的现实潜力。