2026-02-02 - Weekly Papers

ERNIE 5.0 Technical Report

Authors: Haifeng Wang, ERNIE Team

Affiliation: Baidu

技术报告系统介绍 ERNIE 5.0 系列模型的整体设计与能力版图，涵盖训练/对齐思路、推理与多模态等关键能力，以及在多类任务与基准上的表现与局限，面向落地部署给出工程化经验与后续方向。

FASA: Efficient and Effective Temporal Action Segmentation

Authors: Yifei Wang, Yong Wang

Affiliation: AMAP, Alibaba Group

面向时间动作分割（TAS），本文提出 FASA，在保证分割质量的同时强调计算与效率友好。核心目标是减少长序列建模带来的冗余开销，使方法在长视频场景更可扩展，并在多个 TAS 基准上获得更好的精度-效率权衡。

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Authors: Zelai Xu, Chao Yu

Affiliation: EE, Tsinghua University

探索“宽度扩展”：用多智能体并行来做广域信息检索，而非单智能体多轮深推理。提出 lead-agent + 并行 subagent 架构，并用多智能体强化学习在 2 万条任务上端到端训练；WIDESEEK-R1-4B 在 WideSearch 上 item F1 达 40.0%，接近单智能体 DeepSeek-R1-671B，并随并行子智能体数量增加持续增益。

CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding

Authors: Yuling Shi, Xiaodong Gu

Affiliation: Shanghai Jiao Tong University

首次系统评估“把代码渲染成图像”供视觉语言模型理解的可行性与收益。结果显示在显著降 token 的情况下仍能保持甚至提升表现，最高可达 8× 压缩；语法高亮等视觉线索在约 4× 压缩时对补全更有帮助；克隆检测等任务对视觉压缩尤为鲁棒，提示代码图像可能成为更省算力的推理输入形态。

AORCHESTRA: Automating Sub-Agent Creation for Agentic Orchestration

Authors: Jianhao Ruan, Yuyu Luo

Affiliation: DeepWisdom, HKUST(GZ)

提出统一的子智能体抽象：把任意 agent 表示为 ⟨Instruction, Context, Tools, Model⟩ 四元组，使“子智能体即按需生成的执行器”。AORCHESTRA 由中心编排器动态挑选上下文、工具与模型并自动生成子智能体，在 GAIA、SWE-Bench、Terminal-Bench 上相对最强基线取得约 16.28% 的提升，同时支持可控的性能-成本折中与可学习的编排策略。

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Authors: I. Apanasevich, Manipulation Team

Affiliation: Sber Robotics Center

提出面向通用机器人操控的分阶段 VLA 训练框架 Green-VLA，既支持在 Green 人形机器人上的真实部署，也强调跨不同机器人形态的泛化。训练按五阶段课程推进：L0 基础 VLM、L1 多模态 grounding、R0 多形态预训练、R1 形态特定适配、R2 强化学习策略对齐，以逐步获得可迁移且可落地的操控能力。

Reinforcement Learning via Self-Distillation

Authors: Jonas Hübotter, Jonas Hübotter.

Affiliation: ETH Zurich.

提出SDPO：把环境给出的“富文本反馈”（如运行错误、评测意见）当作自提示，让同一模型在“看过反馈后”充当自教师，并把其逐token分布蒸馏回策略，从而把稀疏0/1奖励变成密集信用分配信号。方法在LiveCodeBench等RLVR场景提升样本效率与最终准确率，并可用于测试时自蒸馏加速难题解的发现。

PaperBanana: Automating Academic Illustration for AI Scientists

Authors: Dawei Zhu, Jinsung Yoon.

Affiliation: Peking University, Google Cloud AI Research.

提出PaperBanana：用多智能体流程自动生成“可发表级”论文插图（方法图/统计图）。系统组织检索参考、规划内容与风格、渲染并自我批判迭代，结合VLM与图像生成模型提升一致性与美观度；同时发布PaperBananaBench（292个NeurIPS 2025方法图案例）用于评测，在忠实性、可读性等维度优于基线，并展示可拓展到高质量统计图生成。

Kimi K2.5: Visual Agentic Intelligence

Authors: Tongtong Bai, Yulun Du.

Affiliation: Moonshot AI (Kimi Team).

发布开源多模态代理模型Kimi K2.5，强调文本-视觉联合优化：包含联合预训练、zero-vision SFT与联合RL，使两模态互相增益；并提出Agent Swarm并行编排框架，可把复杂任务动态拆分为异构子任务并并发执行以降延迟。作者报告其在编码、视觉、推理与代理任务上达到SOTA，并开放后训练权重以便研究与应用。

Generative Modeling via Drifting

Authors: Mingyang Deng, Mingyang Deng.

Affiliation: MIT.

提出“Drifting Models”生成范式：不再像扩散/流模型那样在推理阶段多步迭代，而是在训练中让生成分布随优化过程“漂移”逼近数据分布，从而自然支持一步采样。核心是定义漂移场V，使当两分布匹配时达到平衡（V趋零），并用mini-batch估计V构造漂移目标来回归训练。实验在ImageNet 256×256实现1步生成的强性能（报告FID 1.54/1.61）。

First Proof

Authors: Mohammed Abouzaid, Mohammed Abouzaid.

Affiliation: Stanford University.

提出用于评估AI“研究级数学证明”能力的开放题集：作者们从各自真实研究过程中抽取10个此前未公开的问题，短期内将已知答案加密以防数据泄漏，鼓励社区用现有系统尝试并分享完整交互记录。该设定旨在把“检索/记忆”与“真正推理证明”区分开，为更贴近真实数学研究工作流的基准奠基。

VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

Authors: Bing Xu, Bing Xu

Affiliation: NVIDIA

这篇论文发布了一个由LLM编码代理在高层人类指导下“端到端生成”的深度学习系统软件栈VibeTensor：提供Python与Node.js前端，底层是C++20/CUDA运行时，包含张量/存储、算子分发、反向自动微分与CUDA内存分配/图等组件。作者重点讨论生成与验证流程（构建、测试、差分检查等护栏）、仓库规模与基准评测，并总结系统级“vibe-coded”软件的常见失效模式与经验。

Self-Improving Pretraining: using post-trained models to pretrain better models

Authors: Ellen Xiaoqing Tan, Olga Golovneva

Affiliation: FAIR at Meta

提出“自我改进预训练”：把预训练从纯next-token预测改成“给定prefix生成suffix”的序列学习任务，并引入一个强的post-trained模型同时扮演suffix重写者与评审（judge）。训练时对原suffix、重写suffix与当前策略rollout进行比较，用RL奖励更高质量/更安全/更事实的候选，从而在预训练阶段就纠偏。实验报告在事实性与安全性上分别获得36.2%与18.5%的相对提升，并在整体生成质量对比中取得最高86.3%的胜率提升。

Insight Agents: An LLM-Based Multi-Agent System for Data Insights

Authors: Jincheng Bai, Jincheng Bai

Affiliation: Amazon

面向电商卖家数据洞察，论文提出Insight Agents（IA）多智能体对话系统，采用plan-and-execute范式与分层结构：一个manager负责路由与调度，两个worker分别做数据呈现与洞察生成。manager结合轻量OOD检测与分类路由以兼顾准确率与时延；worker侧用API规划拆解问题，并动态注入领域知识提升解释质量。系统已在美国Amazon卖家场景上线，人工评测准确率约90%，P90时延低于15秒。

Communication Methods in Multi-Agent Reinforcement Learning

Authors: Christoph Wittner, Christoph Wittner

Affiliation: Telecooperation Institute, Johannes Kepler University Linz, Austria

这是一篇关于多智能体强化学习（MARL）通信机制的综述与比较研究。作者梳理并深入分析了29篇相关工作，将方法按显式/隐式、注意力、图结构、层级/角色等类别归纳，讨论它们在部分可观测、非平稳性与动作空间爆炸等问题上的优势与代价。结论强调不存在“通用最优”的通信框架，选择应强依赖任务结构与环境约束，并指出需要更标准化的基准与更贴近真实条件的鲁棒性评测。

If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence

Authors: Gopal Vijayaraghavan, Gopal Vijayaraghavan

Affiliation: Isotopes AI, USA

论文主张用“团队对立协作”（team of rivals）的组织结构提升AI代理系统可靠性：把规划、执行、批判、专家等角色拆分为边界清晰的独立代理，并设置互相制衡的激励以主动捕错。系统通过远程代码执行器将数据变换/工具调用与推理上下文隔离，避免原始工具输出污染上下文，从架构上强化“思考-动手”分离。作者在实际用例中报告能在用户暴露前拦截超过90%的内部错误，并讨论为正确性付出的成本与时延权衡。

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Authors: Wenxuan Huang, Yu Zeng

Affiliation: East China Normal University

针对现有模型在视觉深度搜索中的局限，本文提出了Vision-DeepResearch范式，支持多轮、多实体及多尺度的视觉与文本搜索。通过冷启动监督与强化学习将搜索能力内化，该模型在六个事实性问答基准上显著超越了包括GPT-5在内的现有系统，能够处理强噪声环境下的复杂信息聚合任务。

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Authors: Yu Zeng, Wenxuan Huang

Affiliation: Shanghai AI Laboratory

本文指出现有视觉搜索基准存在“非视觉中心”和“检索设定理想化”的缺陷，并提出了包含2000个实例的VDR-Bench。该基准通过严格的人工验证，强制要求模型进行真实的视觉证据检索与多跳推理。此外，作者还提出了一种多轮裁剪搜索策略，有效提升了模型在现实场景下的视觉检索性能。

Closing the Loop: Universal Repository Representation with RPG-Encoder

Authors: Jane Luo, Chengyu Yin

Affiliation: University of Michigan

针对代码库代理中推理与表示断连的问题，本文提出了RPG-Encoder框架，将代码库理解与生成视为互逆过程。通过语义提升、结构重组和伪影锚定，该方法构建了通用的存储库规划图（RPG），在降低95.7%维护开销的同时，在SWE-bench Verified上实现了93.7%的SOTA理解准确率。

Golden Goose: A Simple Trick to Synthesize Unlimited RLVR Tasks from Unverifiable Internet Text

Authors: Ximing Lu, David Acuna

Affiliation: University of Washington

针对强化学习（RL）中可验证数据稀缺的瓶颈，本文提出了“Golden Goose”方法，通过将教科书等不可验证文本转化为多项选择题，合成了无限的RLVR任务。生成的GooseReason数据集包含70万个任务，有效帮助模型突破了性能饱和，在数学和编程等15个基准上取得了显著提升。

Kimi K2.5: Visual Agentic Intelligence

Authors: Kimi Team, Tongtong Bai

Affiliation: Moonshot AI

介绍了Kimi K2.5，一个基于15万亿Token训练的开源多模态代理模型。该模型具备卓越的编程与视觉推理能力，并引入了“Agent Swarm”框架，能够根据任务需求动态生成并编排多达100个子代理并行协作。K2.5在多项基准测试中表现优异，尤其在长程任务执行效率上提升了4.5倍。

Shaping capabilities with token-level data filtering

Authors: Neil Rathi, Alec Radford

Affiliation: OpenAI

本文研究了Token级数据过滤对语言模型能力的影响。实验表明，针对性地过滤出具有特定特征（如高推理密度）的数据，可以显著增强模型在数学和推理任务上的表现，但可能导致其他领域（如创意写作）能力的退化。这一发现为通过精细化数据策展来定制模型行为提供了新视角。

How AI Impacts Skill Formation

Authors: Judy Hanwen Shen, Alex Tamkin

Affiliation: Anthropic

通过随机对照试验，本文揭示了AI辅助工具对新手程序员技能形成的双刃剑效应。虽然AI显著提升了短期生产力，但过度依赖AI（如完全委托）会导致概念理解、代码阅读和调试能力的下降（测试得分降低17%）。作者建议采用保持认知参与的“增强”而非“自动化”模式，以兼顾效率与技能习得。

📚 Weekly Papers