2026-01-26 - Weekly Papers

Authors: Mert Yuksekgonul, Yu Sun.

Affiliation: Stanford University.

提出 TTT-Discover：在单个测试问题上进行“测试时训练”（RL式持续更新权重），让模型边探索边学习以产出“一个最优解”。在数学、GPU kernel、算法竞赛与生物去噪等多领域多任务刷新/逼近SOTA，并强调用开源模型与公开代码可复现。

A self-correcting multi-agent LLM framework for language-based physics simulation and explanation

Authors: Donggeun Park, Seunghwa Ryu.

Affiliation: Korea Advanced Institute of Science and Technology (KAIST).

提出 MCP-SIM 自纠错多代理框架，将自然语言需求转成物理仿真与解释。通过多代理分工（补全需求、校验一致性、引入物理/数值约束与记忆回路）缓解提示不充分、多语言与幻觉导致的失败，提高仿真可靠性与可解释性。

Toward Efficient Agents: A Compact and Fine-grained Multi-dimensional Benchmark for LLM-based Agents

Authors: Xiaofang Yang, Lijun Li.

Affiliation: Shanghai Artificial Intelligence Laboratory, Fudan University.

构建面向 LLM Agent 的紧凑、细粒度、多维评测基准，把复杂任务拆成可控能力维度（如工具使用、规划、记忆、检索与交互等），以更精准地刻画能力画像与失败模式，并用于对比不同模型/系统，服务于更高效的Agent设计与诊断。

Beyond Entangled Planning: Task-Decoupled Planning for Long-Horizon Agents

Authors: Yunfan Li, Bingbing Xu.

Affiliation: State Key Laboratory of AI Safety, Institute of Computing Technology, Chinese Academy of Sciences, University of Chinese Academy of Sciences.

指出长任务规划瓶颈在“上下文纠缠”：跨子任务的混合历史造成认知负载与错误传播。提出训练免的 TDP：Supervisor 构建子任务DAG并调度；Planner/Executor 仅用节点局部上下文计划与执行，并在局部范围修复偏差，从而提升鲁棒性并显著降低 token 成本。

A Large-Scale Study on the Development and Issues of Multi-Agent AI Systems

Authors: Daniel Liu, Daniel Liu.

Affiliation: Louisiana State University.

对 8 个主流开源多代理框架进行大规模仓库挖掘：汇总 4.2 万次提交与 4731 个已解决 issue，识别持续/稳定/爆发式三类演化轨迹；量化提交类型与常见问题主题、解决时延，指出测试基础设施、文档质量与维护流程是生态快速增长下的关键脆弱点。

AI IDEs or Autonomous Agents? Measuring the Impact of Coding Agents on Software Development

Authors: Shyam Agarwal, Shyam Agarwal.

Affiliation: Carnegie Mellon University.

以匹配控制组 + 分期差分中的差分（staggered DiD）做纵向因果分析，评估“自主PR级编码代理”相对IDE助手的真实影响。结果显示：当代理是项目首次引入的AI工具时吞吐提升更明显但偏前置；若已有IDE助手收益有限。与此同时，静态告警与复杂度等质量风险更持久，提示需权衡速度与可维护性。

AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

Authors: Dongrui Liu, Dongrui Liu.

Affiliation: Shanghai AI Laboratory.

提出面向AI智能体的诊断式安全护栏：用“where/how/what”三维风险分类组织风险空间，构建细粒度ATBench，并训练AgentDoG在交互轨迹中监测并诊断不安全或“看似安全但不合理”的行为根因，提供可追溯解释以支持更有效的对齐与审计。

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

Authors: Wei Zhou, Xuanhe Zhou.

Affiliation: Shanghai Jiao Tong University.

系统综述LLM赋能数据准备的全景：围绕数据清洗、数据集成、数据增益三大任务给出方法谱系与代表工作，整理常用数据集与评测指标，并讨论可扩展性成本、幻觉与可靠性、评测不足等核心瓶颈与未来研究路线，附资源汇总链接。

daVinci-Dev: Agent-native Mid-training for Software Engineering

Authors: Ji Zeng, Pengfei Liu.

Affiliation: Shanghai Jiao Tong University, General Artificial Intelligence Research Group (GAIR).

聚焦“agent-native”中期训练：从真实PR/提交历史与可执行仓库环境构造两类轨迹（上下文原生+环境原生），对齐软件工程中的行动-观察-反馈闭环，缓解静态训练数据与真实开发分布不匹配；在SWE-Bench Verified上以更少中训token获得更强开源代码代理表现。

LongCat-Flash-Thinking-2601 Technical Report

Authors: Meituan LongCat Team, Meituan LongCat Team.

Affiliation: Meituan.

介绍560B MoE推理模型LongCat-Flash-Thinking-2601，面向搜索/工具调用/代码等agent任务，通过合成结构化轨迹中训+大规模多环境异步RL（DORA扩展）提升泛化与鲁棒性，并提供“Heavy Thinking”测试时扩展以增强复杂推理与多轮交互能力，同时开源权重、数据与训练配方。

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Authors: Yuhang Wang, Xiaodong Gu.

Affiliation: LLMSE Lab, Shanghai Jiao Tong University.

针对编码代理长上下文带来的成本与噪声，提出自适应上下文剪枝：代理生成当前任务目标提示（goal hint），0.6B轻量“skimmer”按行选择最相关代码片段，尽量保持语法/逻辑结构；在多项代理与长代码理解基准上实现显著token削减（23–54%）且性能影响很小。

Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Authors: Tengyue Xu, Biao Wu

Affiliation: AgentAlpha

提出一个端到端自动化流水线，把“研究概念/想法”逐步转成完整科学论文叙事（结构、论点、相关工作串联、成稿）。核心在于把写作从一次性生成拆成多阶段可控过程，减少反复在线检索与临场总结的开销，面向更稳定的“概念→叙事→论文”转化。

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

Authors: Zengbin Wang, Xiangxiang Chu

Affiliation: Alibaba Group

针对文生图模型的“空间智能”提出系统基准：评测对象的相对位置、排列、包含/相交等空间约束是否被遵守，并用可自动判定的指标量化。通过分解任务与错误类型，揭示主流模型在组合空间关系上的稳定短板，为训练数据与对齐目标提供改进方向。

Scaling Embeddings Outperforms Scaling Experts in Language Models

Authors: Hong Liu, Jiaqi Zhang

Affiliation: Meituan LongCat Team

研究稀疏扩展的另一条路：与其扩大 MoE experts，不如扩大 embedding（含 N-gram embedding 分支）。作者实证给出 embedding scaling 的优势区间与关键架构因素，并提出 LongCat-Flash-Lite（约 68.5B 参数、≈3B 激活）在效率与效果上优于同级 MoE 基线，且更易获得推理加速。

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

Authors: Yanqi Dai, Zhiwu Lu

Affiliation: Gaoling School of Artificial Intelligence, Renmin University of China, AMAP, Alibaba Group

发现 GRPO 在“难题”上的更新幅度系统性偏小，导致数学推理强化学习对关键难点覆盖不足。提出难度感知的 GRPO（按题目难度重加权优势估计/更新）+ 多维度问题改写（在保持答案不变的前提下提升难度与多样性），形成“更难数据→更有效学习”的闭环，在多项数学推理任务上显著提升。

Advancing Open-source World Models

Authors: Zelin Gao, Ka Leong Cheng

Affiliation: Robbyant

发布开源交互式世界模型/世界模拟器 LingBot-World（基于视频生成），强调高保真与强动态、分钟级长时程一致性（长程记忆）、以及低延迟实时交互（约 16fps、<1s 延迟）。作者公开代码与模型，面向内容创作、游戏与机器人学习等需要“可交互环境动力学”的应用。

Innovator-VL: A Multimodal Large Language Model for Scientific Discovery

Authors: Zichen Wen, Weinan E

Affiliation: School of Artificial Intelligence, Shanghai Jiao Tong University

提出面向科学发现的多模态大模型 Innovator-VL，主打“可复现、透明、数据高效”。给出从数据构建到 SFT、RL 与评测的全流程配方，用不到 500 万条精选科学样本获得强科学多模态推理能力，同时保持通用视觉任务竞争力；并配套开源模型/数据与训练细节，便于社区复现与扩展。

📚 Weekly Papers