2025-10-26 - Weekly Papers

On-Policy Distillation

Authors: Kevin Lu, Kevin Lu.

Affiliation: Thinking Machines Lab.

提出“on-policy distillation”：从学生模型的自采样轨迹出发，用教师对每个token的评分（如反向KL）提供密集监督，兼具RL的在策略与蒸馏的效率。用于数学推理与助手训练，成本远低于RL且接近教师表现。

Authors: AI寒武纪, AI寒武纪.

Affiliation: 华尔街见闻.

整篇整理 Karpathy 在 Dwarkesh 采访中的观点：AGI距今约十年；RL信号稀疏、效率低但目前最可行；智能体将经历“十年期”；LLM缺乏记忆与持续学习，AI对经济更可能带来平滑提升而非爆炸式增长。

Scaling Latent Reasoning via Looped Language Models

Authors: Rui-Jie Zhu, Jason Eshraghian

Affiliation: University of California, Santa Cruz

提出LoopLM：在预训练中引入“循环”潜在推理与熵正则的自适应深度，规模至7.7T语料；小模型即可逼近/超越更大基线。优势主要来自“知识操控”而非容量扩张，推理轨迹与最终答案更一致。

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Authors: Yujia Zhang, Hengshuang Zhao

Affiliation: The University of Hong Kong

提出联合2D-3D自监督框架Concerto：3D内模态自蒸馏与2D-3D对齐协同，学习一致、可迁移的空间表征；在线性探测与全量微调上刷新多项场景理解SOTA，并支持视频提升到点云的跨模态应用。

AutoDeco: A Zero-shot Decorator Detector and Evaluation Engine

Authors: Zhichao Wang, Xiaoying Tang

Affiliation: Tencent AI Lab, The Chinese University of Hong Kong, Shenzhen

面向装饰元素的零样本检测与评测引擎：文本可控、类别开放；构建大规模合成与标注数据，并提出端到端OmniDecor方案，显著提升图像/视频中装饰元素的识别、理解与可控生成能力。

InteractComp: Evaluating Search Agents With Ambiguous Queries

Authors: Mingyi Deng, Jiayi Zhang

Affiliation: DeepWisdom

构建评测搜索代理处理歧义查询的基准：210题、9领域。最强模型完整上下文71.5%，互动场景仅13.73%，暴露系统性过度自信；强制提问显著提升，适合作为RLVR训练信号以增强交互能力。

JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

Authors: Qiushi Sun, Fei Yuan

Affiliation: The University of Hong Kong

提出统一的视觉-程序接口与JanusCode-800K多模态代码语料，覆盖图表、网页UI、动画等；JanusCoder/JanusCoderV（7B–14B）在多项文本与视觉代码任务接近或超越闭源模型，支持生成与精确编辑。

Kimi Linear: An Expressive, Efficient Attention Architecture

Authors: Yu Zhang, Yulun Du.

Affiliation: Moonshot AI (Kimi Team).

提出 Kimi Linear：以 KDA 为核心的混合线性注意力，在一致训练下全面超越全注意力（MLA），KV 缓存最高降至 25% 且长序列解码吞吐可达 6×；并开源 KDA 内核与 vLLM 实现及 3B 激活/48B 总参模型。

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

Authors: Shijian Wang, Yuan Lu.

Affiliation: Southeast University, Monash University, Xiaohongshu Inc.

提出 Video-Thinker，将“思考视频”的推理范式引入 MLLM：构建含工具式链路的 Video-Thinker-10K，采用 SFT→GRPO 两阶段训练，使模型在无外部工具调用下自主完成 grounding 与 captioning；7B 模型在 Video-Holmes、CG-Bench-Reasoning、VRBench 等基准达 SOTA。

Tongyi DeepResearch Technical Report

Authors: Baixuan Li, Xinyu Wang.

Affiliation: Alibaba Group.

面向长程深度信息搜寻的代理式 LLM：通过 agentic mid/post-training 与全自动数据生成流水线，实现可扩展的推理与检索；在 Humanity’s Last Exam、BrowseComp/WebWalkerQA 等基准取得领先；同时开源模型、框架与完整解决方案。

Emu3.5: Native Multimodal Models are World Learners

Authors: Yufeng Cui, Xinlong Wang.

Affiliation: Beijing Academy of Artificial Intelligence (BAAI).

Emu3.5 为原生图文世界模型，在 10T+ 视频图文序列上以统一 Next-Token 目标端到端预训练并经 RL 后强化推理/生成；提出 DiDA 将逐 token 解码转为双向并行预测，单图推理约提速 20×；图像生成接近 Gemini 2.5 Flash，交错生成更优。

DeepAgent: A General Reasoning Agent with Scalable Toolsets

Authors: Xiaoxi Li, Zhicheng Dou.

Affiliation: Renmin University of China, Xiaohongshu Inc.

DeepAgent 在单一推理流中完成“思考→工具检索→调用→执行”，并以记忆折叠与 ToolOp 强化学习稳定长程交互；在 ToolBench、API-Bank 等工具用基准及 ALFWorld、WebShop、GAIA、HLE 等应用上全面优于现有方法，代码与演示开放。

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

Authors: Yizhang Zhu, Yuyu Luo.

Affiliation: The Hong Kong University of Science and Technology (Guangzhou).

系统梳理“数据智能体”概念混乱，提出首个L0–L5分级框架，按自治能力综述管理、准备、分析三类工作与代表系统，重点剖析从L2到L3的跃迁瓶颈，并给出面向主动、生成式智能体的研究路线图。

AgentFold: Long-Horizon Web Agents with Proactive Context Management

Authors: Rui Ye, Yong Jiang.

Affiliation: Shanghai Jiao Tong University.

提出“折叠式”上下文管理：将历史轨迹按多尺度摘要与最新交互组织，推理时主动折叠冗余细节，兼顾记忆完整性与长程效率。在无需持续预训练/强化学习的SFT下，BrowseComp等基准达SOTA。

RoboOmni: Proactive Robot Manipulation in Omni-modal Context

Authors: Siyin Wang, Xipeng Qiu.

Affiliation: Fudan University, Shanghai Innovation Institute.

定义跨模态情景指令：从语音、环境声与视觉联合推断意图；提出端到端“感知—思考—对话—执行”框架，并构建OmniAction(14万条)数据。仿真与真实环境均优于基线，显著提升成功率与互动效率。

Emergent Introspective Awareness in Large Language Models

Authors: Jack Lindsey, Jack Lindsey.

Affiliation: Anthropic.

通过在特定层注入“概念向量”并设计判据，实证LLM在部分条件下可报告自身内部状态（功能性内省觉察），但成功率有限、依赖后训练与层位。工作讨论潜在机制、失效模式与解释性影响。

Multi-Agent Evolve: Towards Open-Endedness in Large Language Model Systems

Authors: Yixing Chen, Jiaxuan You.

Affiliation: University of Illinois at Urbana-Champaign.

提出在LLM系统中实现开放式演化的框架：通过环境、角色与目标的自举生成与选择，让多智能体持续产生新能力与任务；并给出测度与基准，展示在复杂推理与协作中的持续提升与新颖性。

A Technical Report on Linearizing Large Language Models: Training from Scratch to Inference on GPUs and TPUs

Authors: Yu Zhang, Yulun Du.

Affiliation: Moonshot AI.

系统化“线性化”LLM训练与推理：算子/内存重排、核融合与流水并行，使吞吐与延迟随模型与序列长度近线性扩展；并在GPU与TPU上给出端到端工程实践与实现。

Understanding FP16 Precision Mismatch in Post-training for Reasoning LLMs

Authors: Penghui Qi, Penghui Qi.

Affiliation: Sea AI Lab, National University of Singapore.

揭示后训练中bf16与fp16数值不匹配会破坏稳定性与泛化；提出以fp16/混合精度与对齐策略修复梯度与logit偏差，在数学与通用推理上显著提升，并给出可复现实践要点。

Context Engineering 2.0: The Context of Context Engineering

Authors: Qishuo Hua, Qishuo Hua.

Affiliation: Shanghai Jiao Tong University, Generative AI Research Lab (GAIR).

系统梳理“上下文工程”的定义、历史与设计要点：从人机交互到智能体时代，强调情境建模与信息编排的方法论，并提出未来研究议程以缩短人机“认知鸿沟”。

SPICE: Self-Play In Corpus Environments Improves Reasoning

Authors: Bo Liu, Jack Lanchantin.

Affiliation: National University of Singapore.

提出语料环境自博弈框架：同一模型在“挑战者/推理者”间切换，基于大规模文档生成并求解新题，形成自动课程；相较无锚自博弈，在数学与通用推理上取得稳定增益。

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Authors: Yihe Deng, I-Hung Hsu.

Affiliation: University of California, Los Angeles.

提出监督强化学习（SRL）：将解题分解为逐步“动作”，先生成内在独白，再以专家行动相似度给平滑奖励；在小模型上学到难题，并与RLVR串联达成更强整体表现。

📚 Weekly Papers