2025-12-08 - Weekly Papers

From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence

Authors: Jian Yang, Bo Zheng

Affiliation: Beihang University

这是一篇关于代码智能的全面综述，涵盖了从代码基础模型（Code LLMs）到代码智能体（Code Agents）及各类应用的最新进展。文章梳理了代码大模型的演进历程，详细介绍了数据处理、模型训练与微调技术，并深入探讨了代码生成、理解、推理及Agent构建等核心任务。此外，作者还总结了评估基准与挑战，为代码智能领域的未来研究提供了详尽的实践指南。

LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

Authors: Zuhao Yang, Lidong Bing

Affiliation: Nanyang Technological University

本文针对多模态大模型在处理长视频时的“长上下文遗忘”和“推理浅薄”问题，提出了一种名为LongVT的新方法。LongVT通过原生的工具调用机制（Native Tool Calling），激励模型在回答问题前先调用工具（如视频检索、摘要等）来“思考”视频内容。这种方法有效地扩展了模型处理长视频的能力，在多个长视频理解基准测试中取得了优异的性能，证明了工具增强对于长视频推理的重要性。

Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

Authors: Juanxi Tian, Cheng Tan

Affiliation: Shanghai AI Laboratory

本文提出了Envision，一个用于评估模型对因果世界过程（Causal World Process）统一理解与生成能力的基准。Envision关注模型是否不仅能识别视觉场景中的要素，还能洞察事件发生的因果逻辑，并据此生成未来预测或反事实结果。该工作填补了现有基准在因果推理与生成任务结合方面的空白，旨在推动迈向具有物理世界常识与因果洞察力的通用人工智能。

Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

Authors: Chujie Zheng, Junyang Lin

Affiliation: Alibaba Cloud

本文深入探讨了利用强化学习（RL）微调大语言模型（LLM）时的训练稳定性问题。作者从理论公式和实践经验两个角度出发，分析了PPO等传统RL算法在LLM场景下的不稳定性根源，并提出了一系列改进的公式化方法（如GSPO）和最佳实践。这项工作旨在为社区提供一套稳定、高效的RLHF训练方案，以更好地释放大模型在推理和复杂任务规划中的潜力。

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Authors: Hongjin Su, Tao Yu

Affiliation: University of Hong Kong

本文提出了ToolOrchestra框架，旨在通过高效的模型与工具编排来提升大语言模型的智能水平。针对复杂任务中工具使用和多步推理的挑战，作者构建了高质量的训练数据和评估基准。实验表明，该方法显著增强了模型在工具调用、规划及解决复杂实际问题时的能力，为构建更强大的自主智能体提供了新的路径。

DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

Authors: DeepSeek-AI, Liang Wenfeng

Affiliation: DeepSeek-AI

DeepSeek-V3.2是DeepSeek开源系列的最新力作，在推理能力上取得了突破性进展，尤其在国际数学奥林匹克（IMO）和信息学奥林匹克（IOI）中展现出金牌级水平。该版本引入了“工具思维”（thinking with tools）能力，并更新了聊天模板以支持深度推理任务。DeepSeek-V3.2在多个基准测试中超越了现有开源模型，甚至在部分任务上媲美闭源的GPT-5和Gemini-3.0-Pro。

Qwen3-VL Technical Report

Authors: Shuai Bai, Jingren Zhou

Affiliation: Alibaba Group

本报告介绍了Qwen3-VL系列视觉语言模型，这是Qwen家族中迄今为止最强大的多模态模型。Qwen3-VL原生支持长达256K的上下文窗口，能够流畅处理交错的文本、图像和视频输入。该系列涵盖了从2B到235B（MoE）等多种规模，在广泛的多模态基准测试中实现了卓越性能，并在长上下文理解和多媒体交互方面展现了显著优势。

Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

Authors: Nex-AGI Team, Yuxuan Cai

Affiliation: Nex-AGI

本文推出了Nex-N1智能体模型，该模型基于一个名为Nex的统一生态系统（包含NexAU、NexA4A和NexGAP）进行训练，专注于大规模交互环境的构建。通过扩展环境的复杂性、多样性和保真度，Nex-N1在SWE-bench和τ2等复杂智能体基准测试中表现优异，持续超越SOTA开源模型，并能与顶尖闭源模型相抗衡。作者还开源了相关生态系统和模型权重以促进研究。

DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

Authors: Fangyu Lei, Kang Liu

Affiliation: Institute of Automation, Chinese Academy of Sciences

本文提出了DAComp基准，用于评估数据智能体在全数据智能生命周期（涵盖数据工程和数据分析）中的表现。该基准包含210个来源于真实工业场景的任务，要求智能体具备构建SQL管道、执行开放式分析及生成建议的能力。评估发现，即使是最先进的智能体在数据工程任务上的成功率也不足20%，凸显了当前模型在全流程编排和开放式推理方面的严重短板。

Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

Authors: Yubo Huang, Steven Hoi

Affiliation: Alibaba Quark

本文提出了Live Avatar框架，利用14B参数的扩散模型实现无限时长、实时（20 FPS）的音频驱动数字人生成。作者通过“时间步强制流水线并行”（TPP）技术突破了传统自回归生成的计算瓶颈，并结合滚动Sink帧机制（RSFM）有效解决了长视频生成中的身份漂移和连贯性问题，为工业级流媒体数字人应用提供了新的解决方案。

Confessions of a Code Model: Measurements of the Coding Capabilities of Large Language Models

Authors: OpenAI

Affiliation: OpenAI

本报告深入评估了大语言模型的编码能力，旨在揭示模型在编程任务中的真实表现与局限。文章可能通过广泛的基准测试和定性分析，探讨了模型在代码生成、调试及复杂逻辑处理中的行为模式，分析了训练数据与实际编码能力之间的映射关系，并对模型在应对未见过的编程挑战时的“过度自信”或错误模式进行了剖析。

How Far Are We from Genuinely Useful Deep Research Agents?

Authors: Dingling Zhang, Wangchunshu Zhou

Affiliation: Ohio State University

本文针对“深度研究智能体”（Deep Research Agents）的实用性鸿沟，提出了FINDER基准和DEFT故障分类法。研究发现，当前Agent的瓶颈并非任务理解，而是证据整合、事实验证及抗干扰规划能力。实验显示，约39%的失败源于内容捏造，32%源于检索验证缺失，表明智能体在生成专业级长篇报告时仍缺乏严谨性与可靠性。

Multi-Agent Collaboration via Evolving Orchestration

Authors: Yufan Dang, Maosong Sun

Affiliation: Tsinghua University

本文提出了一种受木偶戏启发的“进化编排”多智能体协作范式。与传统的静态协作结构不同，该方法引入中心化的“编排者”（Orchestrator），利用强化学习根据动态任务状态实时选择和排序智能体（Puppets）。实验表明，这种动态编排机制能自适应地构建紧凑的推理路径，在提升任务解决率的同时显著降低了计算成本。

Quiet Feature Learning in Algorithmic Tasks

Authors: Prudhviraj Naidu, Ramamohan Paturi

Affiliation: UC San Diego

作者在算法任务训练中发现了“静默特征学习”（Quiet Feature Learning）现象：在损失函数看似停滞的“平缓期”，模型实际上已在内部构建关键的算法特征，随后才引发性能的突变（Phase Transition）。消融实验证实这些静默特征对最终性能至关重要，挑战了仅依靠损失曲线判断模型学习进度的传统观点，揭示了隐性表征积累与涌现能力之间的因果联系。

The Universal Weight Subspace Hypothesis

Authors: Prakhar Kaushik, Alan Yuille

Affiliation: Johns Hopkins University

本文提出了“通用权重子空间假说”，通过分析 Mistral、ViT 等 1100 多个模型，发现深度神经网络无论初始化或任务如何，都会收敛到共享的低维谱子空间。作者识别出仅需少量主方向即可捕获大部分方差的通用子空间，这一发现为理解深度网络的内在组织提供了新视角，并对模型复用、多任务学习及高效算法开发具有重要意义。

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Authors: Adrian Bolton, Daan Wierstra

Affiliation: Google DeepMind

SIMA 2 是基于 Gemini 构建的通用具身智能体，专为 3D 虚拟世界设计。与前代相比，它能通过语言和图像理解复杂指令，进行高层目标推理，并作为交互伙伴与用户对话。SIMA 2 展现了在多种游戏中接近人类的表现，且具备通过 Gemini 生成任务和奖励进行开放式自我改进的能力，能自主在陌生环境中从头学习新技能。

EditThinker: Unlocking Iterative Reasoning for Any Image Editor

Authors: Hongyu Li, Si Liu

Affiliation: Beihang University

本文提出了 EditThinker，一种模拟人类认知循环的“边编辑边思考”框架，旨在解决基于指令的图像编辑中的依从性难题。该模型通过迭代执行“批判结果-优化指令-重新生成”的循环来提升编辑质量。作者利用强化学习对推理引擎进行对齐，使其能生成更有针对性的指令改进，实验表明该方法显著增强了现有编辑模型的指令遵循能力。

OneThinker: All-in-one Reasoning Model for Image and Video

Authors: Kaituo Feng, Xiangyu Yue

Affiliation: The Chinese University of Hong Kong

本文提出了 OneThinker，一个统一图像和视频理解的全能推理模型。作者构建了包含 60 万条数据的多任务训练语料库，并设计了 EMA-GRPO 强化学习方法以平衡多任务间的奖励异质性。OneThinker 在 10 项视觉任务的 31 个基准上表现出色，展示了有效的跨任务知识迁移能力及初步的零样本泛化潜力，向统一的多模态推理迈出了一步。

📚 Weekly Papers