Weekly Papers

Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Authors: Kaijin Chen, Xiang Bai

Affiliation: Huazhong University of Science and Technology, Kling Team, Kuaishou Technology

论文指出现有视频世界模型把场景当静态画布，目标离开视野后容易冻结或消失。作者提出“混合记忆”范式，并构建含 5.9 万片段的 HM-World 数据集与 HyDRA 检索式记忆架构，在动态主体一致性和整体生成质量上显著优于现有方法。

ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

Authors: Yawen Luo, Tianfan Xue

Affiliation: MMLab, CUHK, Kling Team, Kuaishou Technology

针对多镜头视频生成交互性差、时延高的问题，ShotStream 将任务改写为基于历史上下文的因果“下一镜头”生成，并通过分布匹配蒸馏把双向模型蒸馏为因果学生。其全局/局部双缓存与两阶段自驱蒸馏可缓解跨镜头漂移和误差累积，实现单卡约 16 FPS 的实时生成。

Natural-Language Agent Harnesses

Authors: Linyue Pan, Hai-Tao Zheng

Affiliation: Shenzhen International Graduate School, Tsinghua University

论文将以往埋在控制器代码里的 agent harness 外化为可编辑自然语言工件，提出 NLAH 与配套运行时 IHR，用显式契约、可持久化产物和轻量适配器执行控制逻辑。作者在编程与计算机使用基准做可行性、模块消融和代码到文本迁移实验，验证了该范式的可移植与可研究性。

TAPS: Task Aware Proposal Distributions for Speculative Sampling

Authors: Mohamad Zbib, Hasan Abed Al Kader Hammoud

Affiliation: King Abdullah University of Science and Technology (KAUST), American University of Beirut (AUB)

论文研究 speculative decoding 的提案分布是否需要“任务匹配”。作者在数学推理与通用对话数据上训练轻量 drafter，发现不同训练分布会显著影响接受长度；推理数据更适合数学题，对话数据更适合聊天评测。相比权重平均，基于置信度的路由与 merged-tree 验证能更稳健地融合专用 drafter，并获得更高加速收益。

Meta-Harness: End-to-End Optimization of Model Harnesses

Authors: Yoonho Lee, Chelsea Finn

Affiliation: Stanford University

论文将 LLM 系统中的 harness（存取与组织上下文的代码）作为可优化对象，提出外循环搜索系统 Meta-Harness。其 agentic proposer 可访问历史候选代码、分数与执行轨迹，从而进行更有效的迭代。实验显示在文本分类、检索增强数学推理和 agentic coding 上，Meta-Harness 同时提升性能并降低上下文开销，证明自动化 harness engineering 可系统超过手工设计基线。

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Authors: Chiyu Ma, Jingren Zhou

Affiliation: Qwen Pilot Team, Alibaba Group

论文针对 ORM/GRPO 类方法在长链推理中的粗粒度 credit assignment 问题，提出 FIPO：在策略更新中引入折扣 future-KL，按 token 对后续轨迹影响重加权优势。该方法在 Qwen2.5-32B 上显著拉长 CoT 并提升 AIME 2024 准确率，显示密集优势设计可有效释放推理潜力。

CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence

Authors: Tianle Zeng, Hong Zhang

Affiliation: Shenzhen Key Laboratory of Robotics and Computer Vision, Southern University of Science and Technology

CARLA-Air 在单一 Unreal Engine 进程内统一了 CARLA 的城市场景与 AirSim 的多旋翼动力学，避免桥接协同仿真的时钟同步与一致性问题。平台兼容原生 Python API 与 ROS 2，支持多模态同步传感、空地协同任务、具身导航与强化学习训练，面向空地一体智能研究提供可复用基础设施。

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Authors: Meituan LongCat Team, Ziwen Wang

Affiliation: Meituan LongCat Team, Meituan

论文提出 DiNA 框架，将文本、视觉、音频统一到离散 token 空间做原生自回归建模；并以 dNaViT 实现任意分辨率视觉离散化与重建。基于该范式构建的 LongCat-Next 在理解与生成任务上兼顾表现，缓解离散视觉在理解侧的性能瓶颈，展示统一多模态词汇化建模的可行性。

Shor’s algorithm is possible with as few as 10,000 reconfigurable atomic qubits

Authors: Madelyn Cain, Dolev Bluvstein

Affiliation: Oratomic, California Institute of Technology

论文结合高码率容错码、高效逻辑指令集与电路优化，给出 Shor 算法在密码学相关规模上可由约 1 万个可重构中性原子量子比特实现的资源估计。作者进一步分析了 2.6 万比特下离散对数与 RSA-2048 分解的时间量级，说明中性原子体系在容错量子计算落地上的现实潜力。

📚 Weekly Papers