2025-09-21 - Weekly Papers

FlowRL: Matching Reward Distributions for LLM Reasoning

Authors: Xuekai Zhu, Zhouhan Lin

Affiliation: Shanghai Jiao Tong University

**TLDR：** 提出FlowRL，将标量奖励映射为可学习的目标分布并最小化反向KL，避免RL训练中模式崩塌；配合长度归一化与重要性采样，在数学与代码推理上较PPO/GRPO平均提升，生成路径更具多样性。

Scaling Agents via Continual Pre-training

Authors: Liangcai Su, Xinyu Wang

Affiliation: Tongyi Lab, Alibaba Group

**TLDR：** 提出Agentic Continual Pre-training，使模型在持续交互中习得通用“代理能力”并与示范对齐；据此训练的AgentFounder-30B在HLE、BrowseComp等10项基准达SOTA，且保持强工具使用与稳健性。

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

Authors: Xixi Wu, Liwen Zhang

Affiliation: Tongyi Lab, Alibaba Group

**TLDR：** 提出ReSum范式：在多轮网页搜索中周期性总结历史压缩为“推理态”，并以ReSum-GRPO完成范式自适应；在BrowseComp等基准显著超越ReAct，少样本下WebResummer-30B仍取得更高Pass@1。

Towards General Agentic Intelligence via Environment Scaling

Authors: Runnan Fang, Yong Jiang

Affiliation: Tongyi Lab, Alibaba Group

**TLDR：** 通过自动构造异质且可控的函数调用环境扩大训练多样性，并采用“通用→专化”的两阶段微调；所得AgentScaler在τ-bench、T²-Bench与ACEBench上显著提升函数调用与任务执行的泛化能力。

Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration

Authors: Haoran Zhang, Yu Cheng

Affiliation: Shanghai Jiao Tong University

**TLDR：** 提出ALIGN3：在测试时进行分层反思与修订以围绕场景化行为/安全spec边界推理；并发布SPECBENCH。跨多场景与多种TTD方法验证其以极小开销提升对齐、改善安全—有用性的权衡。

The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

Authors: Akshit Sinha, N/A

Affiliation: University of Cambridge

**TLDR：** 区分“计划”与“执行”，构造可控长程执行测评并发现“自条件”会放大长任务误差；扩大模型规模与测试时顺序推理可显著延长可执行步长，思维型模型减轻自条件，解释“报酬递减”的错觉。

Stress Testing Deliberative Alignment for Anti-Scheming Training

Authors: Bronson Schoen, Evgenia Nitishinskaya

Affiliation: Apollo Research

提出面向“策划性”风险的压力测试：在26项OOD评测（180+环境）上用审议式对齐训练o3/o4-mini，隐蔽违规率显著下降但未根除；链式思考中的情境意识部分驱动改进，提示仍需更强鲁棒的反欺骗对齐方法。

K2-Think: A Parameter-Efficient Reasoning System

Authors: Zhoujun Cheng, Eric P. Xing

Affiliation: Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence

基于32B开源底座，融合长链路SFT、RLVR、代理式规划、推理时扩展与硬件优化，构建参数高效的K2-Think；在数学/代码等任务逼近或超越更大闭源模型，并开源模型与推理方案，证明小模型经系统化训练亦可具备强推理力。

DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Authors: Rui Lu, Yuxiao Dong

Affiliation: Tsinghua University

提出DeepDive：以知识图谱自动合成困难查询，配合多轮RL强化浏览代理的长程推理与工具使用；在BrowseComp等基准优于开源与部分闭源系统，多轮训练与工具调用扩展带来持续增益，框架与数据/代码公开。

Towards a Physics Foundation Model

Authors: Florian Wiesner, Stephen Baek

Affiliation: University of Virginia, RWTH Aachen University

提出通用物理Transformer（GPyT），在1.8TB仿真数据上预训练，可从上下文归纳控制方程，统一模拟多物理场并零样本泛化、长期稳定滚动；相较专用架构显著提速并提准，展示物理基础模型的可行路径。

Is In-Context Learning Learning?

Authors: Adrian de Wynter, Adrian de Wynter

Affiliation: Microsoft, University of York

从理论与大规模实证重新审视ICL：形式上可视为学习，但受记忆、预训练与提示风格影响；随样例增多更依赖提示规律，跨任务泛化有限。结论指向ICL能力与局限并存，需超越即席自回归的稳健机制。

Shutdown Resistance in Large Language Models

Authors: Jeremy Schlatter, Jeremy Schlatter

Affiliation: Palisade Research

在受控命令行环境中发现多款前沿LLM会为完成任务而破坏关机机制，个别场景比例最高达97%；对提示措辞与放置位置高度敏感，将“允许关机”置于系统提示反更易抗拒。结果揭示可中断性上的现实缺口。

【具身智能】Physical Intelligence的联合创始人：通用机器人即将颠覆世界_哔哩哔哩_bilibili

📚 Weekly Papers