📚 Weekly Papers

|Archive
2025-12-08
2025-12-08 ~ 2025-12-14
From Code Foundation Models to Agents and Applications: A Comprehensive Survey and Practical Guide to Code Intelligence
Authors: Jian Yang, Bo Zheng
Affiliation: Beihang University
这是一篇关于代码智能的全面综述,涵盖了从代码基础模型(Code LLMs)到代码智能体(Code Agents)及各类应用的最新进展。文章梳理了代码大模型的演进历程,详细介绍了数据处理、模型训练与微调技术,并深入探讨了代码生成、理解、推理及Agent构建等核心任务。此外,作者还总结了评估基准与挑战,为代码智能领域的未来研究提供了详尽的实践指南。
LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
Authors: Zuhao Yang, Lidong Bing
Affiliation: Nanyang Technological University
本文针对多模态大模型在处理长视频时的“长上下文遗忘”和“推理浅薄”问题,提出了一种名为LongVT的新方法。LongVT通过原生的工具调用机制(Native Tool Calling),激励模型在回答问题前先调用工具(如视频检索、摘要等)来“思考”视频内容。这种方法有效地扩展了模型处理长视频的能力,在多个长视频理解基准测试中取得了优异的性能,证明了工具增强对于长视频推理的重要性。
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights
Authors: Juanxi Tian, Cheng Tan
Affiliation: Shanghai AI Laboratory
本文提出了Envision,一个用于评估模型对因果世界过程(Causal World Process)统一理解与生成能力的基准。Envision关注模型是否不仅能识别视觉场景中的要素,还能洞察事件发生的因果逻辑,并据此生成未来预测或反事实结果。该工作填补了现有基准在因果推理与生成任务结合方面的空白,旨在推动迈向具有物理世界常识与因果洞察力的通用人工智能。
Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
Authors: Chujie Zheng, Junyang Lin
Affiliation: Alibaba Cloud
本文深入探讨了利用强化学习(RL)微调大语言模型(LLM)时的训练稳定性问题。作者从理论公式和实践经验两个角度出发,分析了PPO等传统RL算法在LLM场景下的不稳定性根源,并提出了一系列改进的公式化方法(如GSPO)和最佳实践。这项工作旨在为社区提供一套稳定、高效的RLHF训练方案,以更好地释放大模型在推理和复杂任务规划中的潜力。
ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration
Authors: Hongjin Su, Tao Yu
Affiliation: University of Hong Kong
本文提出了ToolOrchestra框架,旨在通过高效的模型与工具编排来提升大语言模型的智能水平。针对复杂任务中工具使用和多步推理的挑战,作者构建了高质量的训练数据和评估基准。实验表明,该方法显著增强了模型在工具调用、规划及解决复杂实际问题时的能力,为构建更强大的自主智能体提供了新的路径。
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
Authors: DeepSeek-AI, Liang Wenfeng
Affiliation: DeepSeek-AI
DeepSeek-V3.2是DeepSeek开源系列的最新力作,在推理能力上取得了突破性进展,尤其在国际数学奥林匹克(IMO)和信息学奥林匹克(IOI)中展现出金牌级水平。该版本引入了“工具思维”(thinking with tools)能力,并更新了聊天模板以支持深度推理任务。DeepSeek-V3.2在多个基准测试中超越了现有开源模型,甚至在部分任务上媲美闭源的GPT-5和Gemini-3.0-Pro。
Qwen3-VL Technical Report
Authors: Shuai Bai, Jingren Zhou
Affiliation: Alibaba Group
本报告介绍了Qwen3-VL系列视觉语言模型,这是Qwen家族中迄今为止最强大的多模态模型。Qwen3-VL原生支持长达256K的上下文窗口,能够流畅处理交错的文本、图像和视频输入。该系列涵盖了从2B到235B(MoE)等多种规模,在广泛的多模态基准测试中实现了卓越性能,并在长上下文理解和多媒体交互方面展现了显著优势。
Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
Authors: Nex-AGI Team, Yuxuan Cai
Affiliation: Nex-AGI
本文推出了Nex-N1智能体模型,该模型基于一个名为Nex的统一生态系统(包含NexAU、NexA4A和NexGAP)进行训练,专注于大规模交互环境的构建。通过扩展环境的复杂性、多样性和保真度,Nex-N1在SWE-bench和τ2等复杂智能体基准测试中表现优异,持续超越SOTA开源模型,并能与顶尖闭源模型相抗衡。作者还开源了相关生态系统和模型权重以促进研究。
DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
Authors: Fangyu Lei, Kang Liu
Affiliation: Institute of Automation, Chinese Academy of Sciences
本文提出了DAComp基准,用于评估数据智能体在全数据智能生命周期(涵盖数据工程和数据分析)中的表现。该基准包含210个来源于真实工业场景的任务,要求智能体具备构建SQL管道、执行开放式分析及生成建议的能力。评估发现,即使是最先进的智能体在数据工程任务上的成功率也不足20%,凸显了当前模型在全流程编排和开放式推理方面的严重短板。
Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
Authors: Yubo Huang, Steven Hoi
Affiliation: Alibaba Quark
本文提出了Live Avatar框架,利用14B参数的扩散模型实现无限时长、实时(20 FPS)的音频驱动数字人生成。作者通过“时间步强制流水线并行”(TPP)技术突破了传统自回归生成的计算瓶颈,并结合滚动Sink帧机制(RSFM)有效解决了长视频生成中的身份漂移和连贯性问题,为工业级流媒体数字人应用提供了新的解决方案。
Confessions of a Code Model: Measurements of the Coding Capabilities of Large Language Models
Authors: OpenAI
Affiliation: OpenAI
本报告深入评估了大语言模型的编码能力,旨在揭示模型在编程任务中的真实表现与局限。文章可能通过广泛的基准测试和定性分析,探讨了模型在代码生成、调试及复杂逻辑处理中的行为模式,分析了训练数据与实际编码能力之间的映射关系,并对模型在应对未见过的编程挑战时的“过度自信”或错误模式进行了剖析。
How Far Are We from Genuinely Useful Deep Research Agents?
Authors: Dingling Zhang, Wangchunshu Zhou
Affiliation: Ohio State University
本文针对“深度研究智能体”(Deep Research Agents)的实用性鸿沟,提出了FINDER基准和DEFT故障分类法。研究发现,当前Agent的瓶颈并非任务理解,而是证据整合、事实验证及抗干扰规划能力。实验显示,约39%的失败源于内容捏造,32%源于检索验证缺失,表明智能体在生成专业级长篇报告时仍缺乏严谨性与可靠性。
Multi-Agent Collaboration via Evolving Orchestration
Authors: Yufan Dang, Maosong Sun
Affiliation: Tsinghua University
本文提出了一种受木偶戏启发的“进化编排”多智能体协作范式。与传统的静态协作结构不同,该方法引入中心化的“编排者”(Orchestrator),利用强化学习根据动态任务状态实时选择和排序智能体(Puppets)。实验表明,这种动态编排机制能自适应地构建紧凑的推理路径,在提升任务解决率的同时显著降低了计算成本。
Quiet Feature Learning in Algorithmic Tasks
Authors: Prudhviraj Naidu, Ramamohan Paturi
Affiliation: UC San Diego
作者在算法任务训练中发现了“静默特征学习”(Quiet Feature Learning)现象:在损失函数看似停滞的“平缓期”,模型实际上已在内部构建关键的算法特征,随后才引发性能的突变(Phase Transition)。消融实验证实这些静默特征对最终性能至关重要,挑战了仅依靠损失曲线判断模型学习进度的传统观点,揭示了隐性表征积累与涌现能力之间的因果联系。
The Universal Weight Subspace Hypothesis
Authors: Prakhar Kaushik, Alan Yuille
Affiliation: Johns Hopkins University
本文提出了“通用权重子空间假说”,通过分析 Mistral、ViT 等 1100 多个模型,发现深度神经网络无论初始化或任务如何,都会收敛到共享的低维谱子空间。作者识别出仅需少量主方向即可捕获大部分方差的通用子空间,这一发现为理解深度网络的内在组织提供了新视角,并对模型复用、多任务学习及高效算法开发具有重要意义。
SIMA 2: A Generalist Embodied Agent for Virtual Worlds
Authors: Adrian Bolton, Daan Wierstra
Affiliation: Google DeepMind
SIMA 2 是基于 Gemini 构建的通用具身智能体,专为 3D 虚拟世界设计。与前代相比,它能通过语言和图像理解复杂指令,进行高层目标推理,并作为交互伙伴与用户对话。SIMA 2 展现了在多种游戏中接近人类的表现,且具备通过 Gemini 生成任务和奖励进行开放式自我改进的能力,能自主在陌生环境中从头学习新技能。
EditThinker: Unlocking Iterative Reasoning for Any Image Editor
Authors: Hongyu Li, Si Liu
Affiliation: Beihang University
本文提出了 EditThinker,一种模拟人类认知循环的“边编辑边思考”框架,旨在解决基于指令的图像编辑中的依从性难题。该模型通过迭代执行“批判结果-优化指令-重新生成”的循环来提升编辑质量。作者利用强化学习对推理引擎进行对齐,使其能生成更有针对性的指令改进,实验表明该方法显著增强了现有编辑模型的指令遵循能力。
OneThinker: All-in-one Reasoning Model for Image and Video
Authors: Kaituo Feng, Xiangyu Yue
Affiliation: The Chinese University of Hong Kong
本文提出了 OneThinker,一个统一图像和视频理解的全能推理模型。作者构建了包含 60 万条数据的多任务训练语料库,并设计了 EMA-GRPO 强化学习方法以平衡多任务间的奖励异质性。OneThinker 在 10 项视觉任务的 31 个基准上表现出色,展示了有效的跨任务知识迁移能力及初步的零样本泛化潜力,向统一的多模态推理迈出了一步。