📚 Weekly Papers

|Archive
2026-02-02
2026-02-02 ~ 2026-02-08
ERNIE 5.0 Technical Report
Authors: Haifeng Wang, ERNIE Team
Affiliation: Baidu
技术报告系统介绍 ERNIE 5.0 系列模型的整体设计与能力版图,涵盖训练/对齐思路、推理与多模态等关键能力,以及在多类任务与基准上的表现与局限,面向落地部署给出工程化经验与后续方向。
FASA: Efficient and Effective Temporal Action Segmentation
Authors: Yifei Wang, Yong Wang
Affiliation: AMAP, Alibaba Group
面向时间动作分割(TAS),本文提出 FASA,在保证分割质量的同时强调计算与效率友好。核心目标是减少长序列建模带来的冗余开销,使方法在长视频场景更可扩展,并在多个 TAS 基准上获得更好的精度-效率权衡。
WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning
Authors: Zelai Xu, Chao Yu
Affiliation: EE, Tsinghua University
探索“宽度扩展”:用多智能体并行来做广域信息检索,而非单智能体多轮深推理。提出 lead-agent + 并行 subagent 架构,并用多智能体强化学习在 2 万条任务上端到端训练;WIDESEEK-R1-4B 在 WideSearch 上 item F1 达 40.0%,接近单智能体 DeepSeek-R1-671B,并随并行子智能体数量增加持续增益。
CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding
Authors: Yuling Shi, Xiaodong Gu
Affiliation: Shanghai Jiao Tong University
首次系统评估“把代码渲染成图像”供视觉语言模型理解的可行性与收益。结果显示在显著降 token 的情况下仍能保持甚至提升表现,最高可达 8× 压缩;语法高亮等视觉线索在约 4× 压缩时对补全更有帮助;克隆检测等任务对视觉压缩尤为鲁棒,提示代码图像可能成为更省算力的推理输入形态。
AORCHESTRA: Automating Sub-Agent Creation for Agentic Orchestration
Authors: Jianhao Ruan, Yuyu Luo
Affiliation: DeepWisdom, HKUST(GZ)
提出统一的子智能体抽象:把任意 agent 表示为 ⟨Instruction, Context, Tools, Model⟩ 四元组,使“子智能体即按需生成的执行器”。AORCHESTRA 由中心编排器动态挑选上下文、工具与模型并自动生成子智能体,在 GAIA、SWE-Bench、Terminal-Bench 上相对最强基线取得约 16.28% 的提升,同时支持可控的性能-成本折中与可学习的编排策略。
Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
Authors: I. Apanasevich, Manipulation Team
Affiliation: Sber Robotics Center
提出面向通用机器人操控的分阶段 VLA 训练框架 Green-VLA,既支持在 Green 人形机器人上的真实部署,也强调跨不同机器人形态的泛化。训练按五阶段课程推进:L0 基础 VLM、L1 多模态 grounding、R0 多形态预训练、R1 形态特定适配、R2 强化学习策略对齐,以逐步获得可迁移且可落地的操控能力。
Reinforcement Learning via Self-Distillation
Authors: Jonas Hübotter, Jonas Hübotter.
Affiliation: ETH Zurich.
提出SDPO:把环境给出的“富文本反馈”(如运行错误、评测意见)当作自提示,让同一模型在“看过反馈后”充当自教师,并把其逐token分布蒸馏回策略,从而把稀疏0/1奖励变成密集信用分配信号。方法在LiveCodeBench等RLVR场景提升样本效率与最终准确率,并可用于测试时自蒸馏加速难题解的发现。
PaperBanana: Automating Academic Illustration for AI Scientists
Authors: Dawei Zhu, Jinsung Yoon.
Affiliation: Peking University, Google Cloud AI Research.
提出PaperBanana:用多智能体流程自动生成“可发表级”论文插图(方法图/统计图)。系统组织检索参考、规划内容与风格、渲染并自我批判迭代,结合VLM与图像生成模型提升一致性与美观度;同时发布PaperBananaBench(292个NeurIPS 2025方法图案例)用于评测,在忠实性、可读性等维度优于基线,并展示可拓展到高质量统计图生成。
Kimi K2.5: Visual Agentic Intelligence
Authors: Tongtong Bai, Yulun Du.
Affiliation: Moonshot AI (Kimi Team).
发布开源多模态代理模型Kimi K2.5,强调文本-视觉联合优化:包含联合预训练、zero-vision SFT与联合RL,使两模态互相增益;并提出Agent Swarm并行编排框架,可把复杂任务动态拆分为异构子任务并并发执行以降延迟。作者报告其在编码、视觉、推理与代理任务上达到SOTA,并开放后训练权重以便研究与应用。
Generative Modeling via Drifting
Authors: Mingyang Deng, Mingyang Deng.
Affiliation: MIT.
提出“Drifting Models”生成范式:不再像扩散/流模型那样在推理阶段多步迭代,而是在训练中让生成分布随优化过程“漂移”逼近数据分布,从而自然支持一步采样。核心是定义漂移场V,使当两分布匹配时达到平衡(V趋零),并用mini-batch估计V构造漂移目标来回归训练。实验在ImageNet 256×256实现1步生成的强性能(报告FID 1.54/1.61)。
First Proof
Authors: Mohammed Abouzaid, Mohammed Abouzaid.
Affiliation: Stanford University.
提出用于评估AI“研究级数学证明”能力的开放题集:作者们从各自真实研究过程中抽取10个此前未公开的问题,短期内将已知答案加密以防数据泄漏,鼓励社区用现有系统尝试并分享完整交互记录。该设定旨在把“检索/记忆”与“真正推理证明”区分开,为更贴近真实数学研究工作流的基准奠基。
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
Authors: Bing Xu, Bing Xu
Affiliation: NVIDIA
这篇论文发布了一个由LLM编码代理在高层人类指导下“端到端生成”的深度学习系统软件栈VibeTensor:提供Python与Node.js前端,底层是C++20/CUDA运行时,包含张量/存储、算子分发、反向自动微分与CUDA内存分配/图等组件。作者重点讨论生成与验证流程(构建、测试、差分检查等护栏)、仓库规模与基准评测,并总结系统级“vibe-coded”软件的常见失效模式与经验。
Self-Improving Pretraining: using post-trained models to pretrain better models
Authors: Ellen Xiaoqing Tan, Olga Golovneva
Affiliation: FAIR at Meta
提出“自我改进预训练”:把预训练从纯next-token预测改成“给定prefix生成suffix”的序列学习任务,并引入一个强的post-trained模型同时扮演suffix重写者与评审(judge)。训练时对原suffix、重写suffix与当前策略rollout进行比较,用RL奖励更高质量/更安全/更事实的候选,从而在预训练阶段就纠偏。实验报告在事实性与安全性上分别获得36.2%与18.5%的相对提升,并在整体生成质量对比中取得最高86.3%的胜率提升。
Insight Agents: An LLM-Based Multi-Agent System for Data Insights
Authors: Jincheng Bai, Jincheng Bai
Affiliation: Amazon
面向电商卖家数据洞察,论文提出Insight Agents(IA)多智能体对话系统,采用plan-and-execute范式与分层结构:一个manager负责路由与调度,两个worker分别做数据呈现与洞察生成。manager结合轻量OOD检测与分类路由以兼顾准确率与时延;worker侧用API规划拆解问题,并动态注入领域知识提升解释质量。系统已在美国Amazon卖家场景上线,人工评测准确率约90%,P90时延低于15秒。
Communication Methods in Multi-Agent Reinforcement Learning
Authors: Christoph Wittner, Christoph Wittner
Affiliation: Telecooperation Institute, Johannes Kepler University Linz, Austria
这是一篇关于多智能体强化学习(MARL)通信机制的综述与比较研究。作者梳理并深入分析了29篇相关工作,将方法按显式/隐式、注意力、图结构、层级/角色等类别归纳,讨论它们在部分可观测、非平稳性与动作空间爆炸等问题上的优势与代价。结论强调不存在“通用最优”的通信框架,选择应强依赖任务结构与环境约束,并指出需要更标准化的基准与更贴近真实条件的鲁棒性评测。
If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence
Authors: Gopal Vijayaraghavan, Gopal Vijayaraghavan
Affiliation: Isotopes AI, USA
论文主张用“团队对立协作”(team of rivals)的组织结构提升AI代理系统可靠性:把规划、执行、批判、专家等角色拆分为边界清晰的独立代理,并设置互相制衡的激励以主动捕错。系统通过远程代码执行器将数据变换/工具调用与推理上下文隔离,避免原始工具输出污染上下文,从架构上强化“思考-动手”分离。作者在实际用例中报告能在用户暴露前拦截超过90%的内部错误,并讨论为正确性付出的成本与时延权衡。
Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models
Authors: Wenxuan Huang, Yu Zeng
Affiliation: East China Normal University
针对现有模型在视觉深度搜索中的局限,本文提出了Vision-DeepResearch范式,支持多轮、多实体及多尺度的视觉与文本搜索。通过冷启动监督与强化学习将搜索能力内化,该模型在六个事实性问答基准上显著超越了包括GPT-5在内的现有系统,能够处理强噪声环境下的复杂信息聚合任务。
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models
Authors: Yu Zeng, Wenxuan Huang
Affiliation: Shanghai AI Laboratory
本文指出现有视觉搜索基准存在“非视觉中心”和“检索设定理想化”的缺陷,并提出了包含2000个实例的VDR-Bench。该基准通过严格的人工验证,强制要求模型进行真实的视觉证据检索与多跳推理。此外,作者还提出了一种多轮裁剪搜索策略,有效提升了模型在现实场景下的视觉检索性能。
Closing the Loop: Universal Repository Representation with RPG-Encoder
Authors: Jane Luo, Chengyu Yin
Affiliation: University of Michigan
针对代码库代理中推理与表示断连的问题,本文提出了RPG-Encoder框架,将代码库理解与生成视为互逆过程。通过语义提升、结构重组和伪影锚定,该方法构建了通用的存储库规划图(RPG),在降低95.7%维护开销的同时,在SWE-bench Verified上实现了93.7%的SOTA理解准确率。
Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text
Authors: Ximing Lu, David Acuna
Affiliation: University of Washington
针对强化学习(RL)中可验证数据稀缺的瓶颈,本文提出了“Golden Goose”方法,通过将教科书等不可验证文本转化为多项选择题,合成了无限的RLVR任务。生成的GooseReason数据集包含70万个任务,有效帮助模型突破了性能饱和,在数学和编程等15个基准上取得了显著提升。
Kimi K2.5: Visual Agentic Intelligence
Authors: Kimi Team, Tongtong Bai
Affiliation: Moonshot AI
介绍了Kimi K2.5,一个基于15万亿Token训练的开源多模态代理模型。该模型具备卓越的编程与视觉推理能力,并引入了“Agent Swarm”框架,能够根据任务需求动态生成并编排多达100个子代理并行协作。K2.5在多项基准测试中表现优异,尤其在长程任务执行效率上提升了4.5倍。
Shaping capabilities with token-level data filtering
Authors: Neil Rathi, Alec Radford
Affiliation: OpenAI
本文研究了Token级数据过滤对语言模型能力的影响。实验表明,针对性地过滤出具有特定特征(如高推理密度)的数据,可以显著增强模型在数学和推理任务上的表现,但可能导致其他领域(如创意写作)能力的退化。这一发现为通过精细化数据策展来定制模型行为提供了新视角。
How AI Impacts Skill Formation
Authors: Judy Hanwen Shen, Alex Tamkin
Affiliation: Anthropic
通过随机对照试验,本文揭示了AI辅助工具对新手程序员技能形成的双刃剑效应。虽然AI显著提升了短期生产力,但过度依赖AI(如完全委托)会导致概念理解、代码阅读和调试能力的下降(测试得分降低17%)。作者建议采用保持认知参与的“增强”而非“自动化”模式,以兼顾效率与技能习得。