📚 Weekly Papers

2026-03-23

2026-03-23 ~ 2026-03-29

HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Authors: Shenzhi Wang, Bowen Yu

Affiliation: Qwen Team, Alibaba Inc., LeapLab, Tsinghua University

论文针对视觉语言模型在长链推理中容易出现感知错误、推理漂移与幻觉叠加的问题，提出可扩展数据合成框架 HopChain。该方法构造实例级多跳依赖问题链，并把最终答案约束为可验证数值，以便用于 RLVR 训练。作者在两种 Qwen3.5 规模模型上验证后发现，加入 HopChain 数据可在 24 个基准中的 20 个获得提升，且在超长 CoT 场景收益最显著，说明多跳数据能稳定增强可泛化视觉推理能力。

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

Authors: Songchun Zhang, Nan Duan

Affiliation: HKUST

本文聚焦蒸馏自回归视频模型虽高效但与人类视觉偏好不一致的问题，提出 Astrolabe 来“转向”前向过程强化学习，使模型在不重新蒸馏的前提下完成偏好对齐。方法面向流式生成特性改造训练目标与优化路径，重点改善时序一致性与伪影控制。实验显示在短视频、长视频和多提示长视频等多种设定下，Astrolabe 均可在感知质量上优于 Reward-Forcing、Causal Forcing、LongLive、Inf-RoPE 等基线。

Foundations of Schrödinger Bridges for Generative Modeling

Authors: Sophia Tang, Sophia Tang

Affiliation: Department of Computer and Information Science, University of Pennsylvania

论文系统梳理了薛定谔桥在生成建模中的数学基础，试图以统一视角连接扩散模型、score-based 方法与 flow matching。作者从最优传输、随机控制和路径空间优化出发，构建在边缘分布约束下最小熵偏移的动态桥接框架，并强调其与现代生成算法的直接对应关系。该工作更偏“基础教程+框架化总结”，为后续设计通用或任务特化的生成路径构造与计算方法提供了清晰理论工具箱。

Memento-Skills: Let Agents Design Agents

Authors: Memento-Team, Memento-Team

Affiliation: Memento-Team（论文首页未明确给出机构）

Memento-Skills 提出“让智能体设计智能体”的持续学习范式：系统把可复用技能写成结构化 Markdown 记忆，通过 Read-Write Reflective Learning 在任务中动态检索、更新并扩展技能库，而不需改动底层大模型参数。该闭环使通用代理能够基于经验不断构建和改进任务专用代理。论文在 General AI Assistants 与 Humanity’s Last Exam 上报告持续增益，显示外化技能记忆可支撑长期演化与跨任务能力提升。

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

Authors: Meiqi Wu, Kaiqi Huang

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

提出面向世界模型交互能力的评测基准 Omni-WorldBench，将评估重心从静态重建/画质转向“动作是否正确驱动时空状态变化”。基准包含多层级交互提示集与基于智能体的因果度量框架，并系统评测 18 个代表性模型，显示现有方法在交互响应上仍有明显短板。

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Authors: SII-GAIR, Pengfei Liu

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

论文提出单流 Transformer 音视频统一生成架构 daVinci-MagiHuman，将文本、视频、音频放入同一 token 序列建模，避免多流与交叉注意力复杂度。结合蒸馏、潜空间超分与 Turbo VAE，在单卡 H100 上可约 2 秒生成 5 秒 256p 视频，并在画质、文本对齐与语音可懂度上取得强竞争结果。

MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Authors: Hejun Dong, Conghui He

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

将文档 OCR 重新表述为逆渲染问题，指出传统自回归按序解码并非任务本质，易带来时延和误差累积。作者提出 MinerU-Diffusion，用视觉条件下的并行扩散去噪替代自回归解码，并配合分块解码与不确定性驱动课程学习，在长序列场景提升鲁棒性，解码速度最高可达基线的 3.2 倍。

Authors: Jenny Zhang, Tatiana Shavrina

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

提出 hyperagents 框架，把任务求解 agent 与负责自我修改的 meta agent 融为同一可编辑程序，使“改进策略本身”也可被持续优化。基于 DGM 扩展得到 DGM-H 后，在多任务上相较无自改进或仅开放探索基线表现更优，并显示跨领域可迁移的元改进能力，探索更通用的自加速智能体路径。

End-to-End Training for Unified Tokenization and Latent Denoising

Authors: Shivam Duggal, William T. Freeman

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

提出 UNITE，将“图像 tokenization”和“潜变量去噪生成”统一到单阶段端到端训练中，通过共享生成编码器在不同条件下完成潜变量推断，形成统一潜空间语言。该方法在图像与分子任务中无需对抗损失或预训练编码器也能达到接近 SOTA 的生成质量，说明联合训练可行且高效。

PixelSmile: Toward Fine-Grained Facial Expression Editing

Authors: Jiabin Hua, Yu-Gang Jiang

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

论文针对细粒度表情编辑中的语义耦合问题，构建带连续情感标注的 FFE 数据集与 FFE-Bench，并提出 PixelSmile 扩散框架。方法通过对称联合训练、强度监督与对比学习解耦表情语义，在文本潜变量插值下实现更稳定线性可控编辑；实验显示其在表情可分辨性、编辑精度与身份保持上优于基线。

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

Authors: Yicheng Zou, Lei Bai

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

Intern-S1-Pro 提出首个万亿参数级科学多模态基础模型，目标是统一提升通用能力与科学专项能力。论文报告该模型在图文理解、推理与 agent 能力上增强，同时覆盖化学、材料、生命、地学等 100+ 科学任务；并依托 XTuner 与 LMDeploy 实现万亿级 RL 训练与训练推理精度一致，强调“可专精的通才”定位。

AVO: Agentic Variation Operators for Autonomous Evolutionary Search

Authors: Terry Chen, Humphrey Shi

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

AVO 将进化搜索中的固定变异/交叉算子替换为自主编码智能体循环，使其可结合谱系、领域知识与执行反馈进行提出、修复、批判与验证。作者在 NVIDIA B200 上对注意力内核进行 7 天自治演化，结果显示相对 cuDNN 最多提升 3.5%、相对 FlashAttention-4 最多提升 10.5%，并可快速迁移到 GQA 继续获得性能增益。

Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

Authors: Jeonghye Kim, Yuqing Yang

Affiliation: 未明确披露（arXiv 页面未给出第一作者机构）

论文发现自蒸馏虽能缩短推理链，但在数学推理中可能显著降分。核心机制是“认知不确定性表达”被抑制：当教师条件信息过丰富时，学生更快拟合域内答案轨迹，却削弱 OOD 场景下通过表达不确定性进行自校正的能力。作者在多款 7B/8B 模型上观察到最高约 40% 性能下降，提示后训练应优化推理行为而非只强化正确答案轨迹。