📚 Weekly Papers

|Archive
2025-09-21
2025-09-15 ~ 2025-09-21
FlowRL: Matching Reward Distributions for LLM Reasoning
Authors: Xuekai Zhu, Zhouhan Lin
Affiliation: Shanghai Jiao Tong University
**TLDR:** 提出FlowRL,将标量奖励映射为可学习的目标分布并最小化反向KL,避免RL训练中模式崩塌;配合长度归一化与重要性采样,在数学与代码推理上较PPO/GRPO平均提升,生成路径更具多样性。
Scaling Agents via Continual Pre-training
Authors: Liangcai Su, Xinyu Wang
Affiliation: Tongyi Lab, Alibaba Group
**TLDR:** 提出Agentic Continual Pre-training,使模型在持续交互中习得通用“代理能力”并与示范对齐;据此训练的AgentFounder-30B在HLE、BrowseComp等10项基准达SOTA,且保持强工具使用与稳健性。
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
Authors: Xixi Wu, Liwen Zhang
Affiliation: Tongyi Lab, Alibaba Group
**TLDR:** 提出ReSum范式:在多轮网页搜索中周期性总结历史压缩为“推理态”,并以ReSum-GRPO完成范式自适应;在BrowseComp等基准显著超越ReAct,少样本下WebResummer-30B仍取得更高Pass@1。
Towards General Agentic Intelligence via Environment Scaling
Authors: Runnan Fang, Yong Jiang
Affiliation: Tongyi Lab, Alibaba Group
**TLDR:** 通过自动构造异质且可控的函数调用环境扩大训练多样性,并采用“通用→专化”的两阶段微调;所得AgentScaler在τ-bench、T²-Bench与ACEBench上显著提升函数调用与任务执行的泛化能力。
Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
Authors: Haoran Zhang, Yu Cheng
Affiliation: Shanghai Jiao Tong University
**TLDR:** 提出ALIGN3:在测试时进行分层反思与修订以围绕场景化行为/安全spec边界推理;并发布SPECBENCH。跨多场景与多种TTD方法验证其以极小开销提升对齐、改善安全—有用性的权衡。
The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
Authors: Akshit Sinha, N/A
Affiliation: University of Cambridge
**TLDR:** 区分“计划”与“执行”,构造可控长程执行测评并发现“自条件”会放大长任务误差;扩大模型规模与测试时顺序推理可显著延长可执行步长,思维型模型减轻自条件,解释“报酬递减”的错觉。
Stress Testing Deliberative Alignment for Anti-Scheming Training
Authors: Bronson Schoen, Evgenia Nitishinskaya
Affiliation: Apollo Research
提出面向“策划性”风险的压力测试:在26项OOD评测(180+环境)上用审议式对齐训练o3/o4-mini,隐蔽违规率显著下降但未根除;链式思考中的情境意识部分驱动改进,提示仍需更强鲁棒的反欺骗对齐方法。
K2-Think: A Parameter-Efficient Reasoning System
Authors: Zhoujun Cheng, Eric P. Xing
Affiliation: Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence
基于32B开源底座,融合长链路SFT、RLVR、代理式规划、推理时扩展与硬件优化,构建参数高效的K2-Think;在数学/代码等任务逼近或超越更大闭源模型,并开源模型与推理方案,证明小模型经系统化训练亦可具备强推理力。
DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL
Authors: Rui Lu, Yuxiao Dong
Affiliation: Tsinghua University
提出DeepDive:以知识图谱自动合成困难查询,配合多轮RL强化浏览代理的长程推理与工具使用;在BrowseComp等基准优于开源与部分闭源系统,多轮训练与工具调用扩展带来持续增益,框架与数据/代码公开。
Towards a Physics Foundation Model
Authors: Florian Wiesner, Stephen Baek
Affiliation: University of Virginia, RWTH Aachen University
提出通用物理Transformer(GPyT),在1.8TB仿真数据上预训练,可从上下文归纳控制方程,统一模拟多物理场并零样本泛化、长期稳定滚动;相较专用架构显著提速并提准,展示物理基础模型的可行路径。
Is In-Context Learning Learning?
Authors: Adrian de Wynter, Adrian de Wynter
Affiliation: Microsoft, University of York
从理论与大规模实证重新审视ICL:形式上可视为学习,但受记忆、预训练与提示风格影响;随样例增多更依赖提示规律,跨任务泛化有限。结论指向ICL能力与局限并存,需超越即席自回归的稳健机制。
Shutdown Resistance in Large Language Models
Authors: Jeremy Schlatter, Jeremy Schlatter
Affiliation: Palisade Research
在受控命令行环境中发现多款前沿LLM会为完成任务而破坏关机机制,个别场景比例最高达97%;对提示措辞与放置位置高度敏感,将“允许关机”置于系统提示反更易抗拒。结果揭示可中断性上的现实缺口。
【具身智能】Physical Intelligence的联合创始人:通用机器人即将颠覆世界_哔哩哔哩_bilibili