2025-11-09 - Weekly Papers

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

Authors: Jingqi Tong, Jun Zhao.

Affiliation: Fudan University, Shanghai Innovation Institute.

提出“用视频思考”范式：以视频生成模型（如 Sora-2）在时间维统一视觉与文本推理。构建 VideoThinkBench 覆盖视觉谜题与文本任务；在 MATH、MMMU 等上表现强劲，并分析自一致与 ICL 的增益，指向统一多模态理解与生成。

Diffusion Language Models are Super Data Learners

Authors: Jinjie Ni, Jinjie Ni.

Affiliation: National University of Singapore.

在严格可比的预训练下，Diffusion 语言模型在“唯一数据”受限时通过延长训练稳定超越自回归模型。原因在于任意顺序建模、迭代去噪带来的超密计算与内置 MC 扩增；小规模数据亦能在 HellaSwag/MMLU 取得较好成绩，揭示“超数据学习”。

VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

Authors: Kevin Qinghong Lin, Kevin Qinghong Lin.

Affiliation: University of Oxford.

提出以 SVG 为符号视觉表示的多模态代码基准 VCode，涵盖通用/专业/视觉中心三类任务并配套排行榜。通过“结构化图形→可执行代码”的设定，更公平检验模型的感知—推理—生成链路，推动视觉与代码协同能力研究。

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Authors: Nikita Kachaev, Nikita Kachaev.

Affiliation: Cognitive AI Lab.

系统揭示 VLA 在动作微调中出现视觉-语言表示退化；提出将 VLA 视觉特征对齐到冻结教师编码器的对齐损失，几乎无额外开销即可缓解表示漂移。在 VL-Think 等套件与 OOD 评测中显著提升泛化，优于常规 SFT/冻结策略。

V-Thinker: Interactive Thinking with Images

Authors: Runqi Qiao, Runqi Qiao.

Affiliation: Beijing University of Posts and Telecommunications.

面向图像交互式推理提出 V-Thinker：数据进化飞轮与逐步视觉课程（对齐→交互推理），并发布 VTBench。模型可编辑/标注/转换图像以化简问题，在多基准上优于强 LMM 基线，展示从“看图辅助”迈向“以图思考”的通用框架。

Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

Authors: Ling Team, Changxin Tian.

Affiliation: Inclusion AI.

提出以高稀疏MoE为核心的Ling 2.0推理型开源基座，覆盖16B到1T参数，强调“每个激活都增强推理”。通过中期CoT激活、DFT/Evo-CoT强化与FP8全流程训练，实现推理效率与准确率的新Pareto前沿。

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Authors: Jiawei Gu, Jiawei Gu.

Affiliation: National University of Singapore.

构建含约2.4万条高质量“文-图交替思维链”的统一多模态模型，能在推理过程中交替生成文本与图像步骤，显著提升视觉中心任务表现，并呈现未见视觉操作、模式自适应切换与更优测试时扩展等涌现能力。

Scaling Agent Learning via Experience Synthesis

Authors: Zhaorun Chen, Zhaorun Chen.

Affiliation: N/A.

提出DreamGym，用“推理驱动的经验模型”合成多样环境交互，替代昂贵真实rollout，支持在线RL训练与课程生成。实验在WebArena等场景显著超越基线，并在sim-to-real迁移中以更少真实交互取得更高性能。

OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

Authors: Qiushi Sun, Qiushi Sun.

Affiliation: N/A.

面向移动端GUI智能体安全，提出混合验证框架OS-Sentinel：结合形式化验证检测系统级违规与VLM判别器评估情境风险；并发布动态沙箱与真实轨迹基准MobileRisk-Live，在多项指标上较现有方法提升10%–30%。

Continuous Autoregressive Language Models

Authors: Chenze Shao, Chenze Shao.

Affiliation: WeChat AI, Tencent Inc.

提出CALM，将离散“下一词”预测转为连续“下一向量”预测：用自编码器将K个token压缩为单个向量，再以似然自由训练/评估与可控采样实现K倍步骤压缩，显著改善性能-算力比，指向超高效LLM的新路径。

INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats

Authors: Mengzhao Chen, Ping Luo.

Affiliation: The University of Hong Kong, ByteDance Seed.

系统比较细粒度（块级）INT与FP低比特量化。发现8比特下MXINT8在准确率与硬件效率均优于MXFP8；4比特时FP常占优，但结合Hadamard旋转的NVINT4可反超NVFP4。并提出对称截断以消除INT训练梯度偏置，为算法—硬件协同提供实证与理论指引。

$\pi_{\texttt{RL}}$

Authors: Kang Chen, Chao Yu.

Affiliation: Peking University, Zhongguancun Academy.

提出面向流匹配VLA的在线强化学习框架$\pi_{\texttt{RL}}$，包含Flow-Noise与Flow-SDE两种策略以获得可处理的动作对数似然；在并行仿真中实现大规模训练。于LIBERO与ManiSkill显著提升成功率，验证在线RL对流式VLA的有效性并开源实现。

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

Authors: Yiyang Zhou, Qinghao Ye.

Affiliation: ByteDance Seed.

发布MIRA基准，面向“先画再想”的视觉思维链评测，涵盖20类任务与546道带中间图示的多模态问题。实验显示主流多模态大模型在仅文本推理下表现不佳，但提供中间视觉线索可带来显著提升，凸显“可视化中间状态”对复杂推理的关键价值。

Kosmos: An AI Scientist for Autonomous Discovery

Authors: Ludovico Mitchener, Andrew D. White.

Affiliation: N/A.

提出自动化“AI科学家”Kosmos，通过世界模型协调文献检索、假设生成与数据分析，长程保持任务一致性，可运行数百轮并生成可追溯报告。多学科合作评估显示，其结论准确率高、可扩展性好，并能产出具价值的新发现。

Why Less is More (Sometimes): A Theory of Data Curation

Authors: Elvis Dohmatob, Elvis Dohmatob.

Affiliation: N/A.

构建理论框架解释何时“少即是多”：当依据样本难度与正确性进行选择时，小而精的数据集可优于全量。给出测试误差随数据规模与质量的精确相变曲线，并以ImageNet实证验证，统一近期在LLM与视觉上的数据筛选悖论。

Are language models aware of the road not taken? Token-level uncertainty and hidden state dynamics

Authors: Amir Zur, Amir Zur.

Affiliation: Stanford.

研究推理型LM在生成过程中是否隐式表征“未走之路”。通过操控隐藏激活与不确定性预测发现：当模型对某些token更不确定时，更易被激活干预引导，且隐藏态可预测未来输出分布，表明模型内部存在潜在多路径表征。

Towards Robust Mathematical Reasoning

Authors: Thang Luong, Minh-Thang Luong.

Affiliation: Google DeepMind.

提出IMO-Bench含“答案题+证明题”两套高难奥赛级评测，并构建自动评分基准IMO-GradingBench；实证展示Gemini在两套子基准显著领先，推动对长链路、可验证数学推理的稳健评测与训练。

Context Engineering 2.0: The Context of Context Engineering

Authors: Qishuo Hua, Qishuo Hua.

Affiliation: N/A.

从历史脉络与人机交互范式出发系统化界定“上下文工程”，梳理概念边界、设计要素与实践原则，提出通往具身智能体时代的框架，为构建可解释、可调控的AI语境管理提供方法论基础。

Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning

Authors: Ran Xu, Ran Xu.

Affiliation: Google.

提出TIR-Judge：将代码执行工具纳入RL训练的评审模型框架，覆盖点对、成对与列表式评判；在7个公开基准上较纯文本推理评审显著提升，且无需蒸馏即可通过迭代RL自举获得强性能。

Beyond a Million Tokens: Benchmarking and Enhancing Long-Term Memory in LLMs

Authors: Mohammad Tavakoli, Mohammad Tavakoli.

Affiliation: University of Alberta.

构建BEAM长对话记忆基准（最长至千万token）与LIGHT记忆架构（长期记忆+工作记忆+速记板）。结果表明现有长窗模型仍显吃力，而LIGHT在多种骨干模型上带来3.5%–12.69%的稳定增益。

Mathematical exploration and discovery at scale

Authors: Bogdan Georgiev, Adam Zsolt Wagner.

Affiliation: N/A.

展示进化式编程智能体AlphaEvolve：结合LLM生成与自动评估，迭代提出—测试—改进算法构造；在分析、组合与数论等67题上复现或改进已知结果，并与Deep Think/AlphaProof协同实现自动探索与证明。

📚 Weekly Papers