论文指出现有视频世界模型把场景当静态画布,目标离开视野后容易冻结或消失。作者提出“混合记忆”范式,并构建含 5.9 万片段的 HM-World 数据集与 HyDRA 检索式记忆架构,在动态主体一致性和整体生成质量上显著优于现有方法。
针对多镜头视频生成交互性差、时延高的问题,ShotStream 将任务改写为基于历史上下文的因果“下一镜头”生成,并通过分布匹配蒸馏把双向模型蒸馏为因果学生。其全局/局部双缓存与两阶段自驱蒸馏可缓解跨镜头漂移和误差累积,实现单卡约 16 FPS 的实时生成。
论文将以往埋在控制器代码里的 agent harness 外化为可编辑自然语言工件,提出 NLAH 与配套运行时 IHR,用显式契约、可持久化产物和轻量适配器执行控制逻辑。作者在编程与计算机使用基准做可行性、模块消融和代码到文本迁移实验,验证了该范式的可移植与可研究性。
论文研究 speculative decoding 的提案分布是否需要“任务匹配”。作者在数学推理与通用对话数据上训练轻量 drafter,发现不同训练分布会显著影响接受长度;推理数据更适合数学题,对话数据更适合聊天评测。相比权重平均,基于置信度的路由与 merged-tree 验证能更稳健地融合专用 drafter,并获得更高加速收益。
论文将 LLM 系统中的 harness(存取与组织上下文的代码)作为可优化对象,提出外循环搜索系统 Meta-Harness。其 agentic proposer 可访问历史候选代码、分数与执行轨迹,从而进行更有效的迭代。实验显示在文本分类、检索增强数学推理和 agentic coding 上,Meta-Harness 同时提升性能并降低上下文开销,证明自动化 harness engineering 可系统超过手工设计基线。
论文针对 ORM/GRPO 类方法在长链推理中的粗粒度 credit assignment 问题,提出 FIPO:在策略更新中引入折扣 future-KL,按 token 对后续轨迹影响重加权优势。该方法在 Qwen2.5-32B 上显著拉长 CoT 并提升 AIME 2024 准确率,显示密集优势设计可有效释放推理潜力。
CARLA-Air 在单一 Unreal Engine 进程内统一了 CARLA 的城市场景与 AirSim 的多旋翼动力学,避免桥接协同仿真的时钟同步与一致性问题。平台兼容原生 Python API 与 ROS 2,支持多模态同步传感、空地协同任务、具身导航与强化学习训练,面向空地一体智能研究提供可复用基础设施。
论文提出 DiNA 框架,将文本、视觉、音频统一到离散 token 空间做原生自回归建模;并以 dNaViT 实现任意分辨率视觉离散化与重建。基于该范式构建的 LongCat-Next 在理解与生成任务上兼顾表现,缓解离散视觉在理解侧的性能瓶颈,展示统一多模态词汇化建模的可行性。
论文结合高码率容错码、高效逻辑指令集与电路优化,给出 Shor 算法在密码学相关规模上可由约 1 万个可重构中性原子量子比特实现的资源估计。作者进一步分析了 2.6 万比特下离散对数与 RSA-2048 分解的时间量级,说明中性原子体系在容错量子计算落地上的现实潜力。