📚 Weekly Papers

|Archive
2025-08-17
2025-08-11 ~ 2025-08-17
Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
Authors: Chengshuai Zhao, Huan Liu
Affiliation: Arizona State University
研究发现CoT在分布偏移下易失效。作者构造多种数据分布并给出风险界定理论,系统评估任务/提示/长度等因素的OOD表现,提出更稳健评测与实践建议。
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
Authors: Xinyu Geng, Jingren Zhou
Affiliation: Tongyi Lab
针对现有代理忽视视觉信息的问题,提出多模态代理WebWatcher,通过高质量合成视觉-文本轨迹进行冷启动训练,集成多种工具并采用强化学习提升推理能力。新基准BrowseComp-VL要求同时处理视觉与文本,实验显示WebWatcher在四个复杂VQA任务上显著超越专有和RAG基线。
ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
Authors: Wenhan Liu, Zhicheng Dou
Affiliation: Renmin University of China
ReasonRank利用DeepSeek-R1合成多领域推理数据并通过自一致过滤保证质量,再进行冷启动监督微调和多视角奖励的强化学习训练,显著提升列表重排能力。在BRIGHT排行榜上其得分40.6并达到SOTA,且延迟低,证明用推理数据和强化学习可以提升排序模型。
Tool-Augmented Unified Retrieval Agent for AI Search (TURA)
Authors: Weijia Shi, Christopher Ré
Affiliation: Baidu
提出了一个生产级框架,扩展了RAG(检索增强生成)范式,通过代理式工具调用(agentic tool use)来支持实时、动态与事务型查询。不同于依赖静态网页快照的传统RAG系统,TURA使基于LLM的系统能够与外部API和数据库交互,从而满足需要最新或结构化信息(如列车时刻表、天气预报)的用户意图。
Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL
Authors: Jiaxuan Gao, Yi Wu
Affiliation: Tsinghua University
Beyond Ten Turns提出开源项目ASearcher,通过完全异步强化学习训练搜索代理,突破<=10轮的搜索限制。利用提示驱动LLM生成大规模高质量QA数据,训练的QwQ-32B代理在xBench和GAIA上提高平均得分46.7%和20.8%,可进行40次以上工具调用和15万token输出,数据与模型均已开源。
WideSearch: Benchmarking Agentic Broad Info-Seeking
Authors: Ryan Wong, Ke Wang
Affiliation: ByteDance Seed
WideSearch提出评估广域信息收集能力的基准,包含来自15个领域的200个人工问题,每个任务要求代理收集大量可验证信息并组织输出。对单代理和多代理系统评测发现,现有模型成功率接近0%,最佳仅5%;人类交叉验证接近100%,暴露现有代理在大规模信息搜集任务上的巨大差距。
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
Authors: Aohan Zeng, Jie Tang
Affiliation: Zhipu AI, Tsinghua University
开源MoE大模型GLM-4.5总参数355B、激活32B,采用混合推理并在23T数据上多阶段预训练,结合专家迭代和强化学习。在TAU-Bench、AIME24、SWE-bench等基准中取得70.1%等高分,性能领先多数开源模型。
A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems
Authors: Jinyuan Fang, Zaiqiao Meng
Affiliation: University of Glasgow
这篇综述指出现有代理部署后难以自我演化,提出包含“系统输入、代理系统、环境、优化器”四要素的自演化框架,回顾针对各组件的演化技术,并探讨生物医学、编程等领域的策略,同时强调评估、安全和伦理问题,为构建适应性终身系统奠定基础。
We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
Authors: Runqi Qiao, Honggang Zhang
Affiliation: WeChat, Tencent Inc
为提升多模态大模型的数学推理,We-Math 2.0构建了五层491个知识点的MathBook体系和难度分级的MathBook-Standard/Pro数据集,提出“冷启动微调+渐进对齐强化学习”两阶段训练,并设计MathBookEval基准;实验表明其在多个公开数据集和自建评价上具有竞争性能和良好泛化。 # 2025-08-15 **#### :star:[Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens](**https://arxiv.org/pdf/2508.01191**)** - ***Authors****: Chengshuai Zhao, Huan Liu - ***Affiliation****: Arizona State University - ***TLDR****: 研究发现CoT在分布偏移下易失效。作者构造多种数据分布并给出风险界定理论,系统评估任务/提示/长度等因素的OOD表现,提出更稳健评测与实践建议。 **#### [WebWatcher: Breaking New Frontier of Vision‑Language Deep Research Agent](**https://arxiv.org/abs/2508.05748**)** - ***Authors****: Xinyu Geng, Jingren Zhou - ***Affiliation****: Tongyi Lab - ***TLDR****: 针对现有代理忽视视觉信息的问题,提出多模态代理WebWatcher,通过高质量合成视觉‑文本轨迹进行冷启动训练,集成多种工具并采用强化学习提升推理能力。新基准BrowseComp‑VL要求同时处理视觉与文本,实验显示WebWatcher在四个复杂VQA任务上显著超越专有和RAG基线。 **#### [ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability](**https://arxiv.org/abs/2508.07050**)** - ***Authors****: Wenhan Liu, Zhicheng Dou - ***Affiliation****: Renmin University of China - ***TLDR****: ReasonRank利用DeepSeek‑R1合成多领域推理数据并通过自一致过滤保证质量,再进行冷启动监督微调和多视角奖励的强化学习训练,显著提升列表重排能力。在BRIGHT排行榜上其得分40.6并达到SOTA,且延迟低,证明用推理数据和强化学习可以提升排序模型。 **#### [Tool-Augmented Unified Retrieval Agent for AI Search (TURA)](**https://arxiv.org/abs/2508.04604**)** - ***Authors****: Weijia Shi, Christopher Ré - ***Affiliation****: Baidu - ***TLDR****: 提出了一个生产级框架,扩展了 RAG(检索增强生成)范式,通过代理式工具调用(agentic tool use)来支持实时、动态与事务型查询。不同于依赖静态网页快照的传统 RAG 系统,TURA 使基于 LLM 的系统能够与外部 API 和数据库交互,从而满足需要最新或结构化信息(如列车时刻表、天气预报)的用户意图。 **#### [Beyond Ten Turns: Unlocking Long‑Horizon Agentic Search with Large‑Scale Asynchronous RL](**https://arxiv.org/abs/2508.07976**)** - ***Authors****: Jiaxuan Gao, Yi Wu - ***Affiliation****: Tsinghua University - ***TLDR****: Beyond Ten Turns提出开源项目ASearcher,通过完全异步强化学习训练搜索代理,突破≤10轮的搜索限制。利用提示驱动LLM生成大规模高质量QA数据,训练的QwQ‑32B代理在xBench和GAIA上提高平均得分46.7%和20.8%,可进行40次以上工具调用和15万token输出,数据与模型均已开源。 **#### [WideSearch: Benchmarking Agentic Broad Info‑Seeking](**https://arxiv.org/abs/2508.07999**)** - ***Authors****: Ryan Wong, Ke Wang - ***Affiliation****: ByteDance Seed - ***TLDR****: WideSearch提出评估广域信息收集能力的基准,包含来自15个领域的200个人工问题,每个任务要求代理收集大量可验证信息并组织输出。对单‑代理和多‑代理系统评测发现,现有模型成功率接近0%,最佳仅5%;人类交叉验证接近100%,暴露现有代理在大规模信息搜集任务上的巨大差距。 **#### [GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models](**https://arxiv.org/abs/2508.06471**)** - ***Authors****: Aohan Zeng, Jie Tang - ***Affiliation****: Zhipu AI, Tsinghua University - ***TLDR****: 开源MoE大模型GLM‑4.5总参数355B、激活32B,采用混合推理并在23T数据上多阶段预训练,结合专家迭代和强化学习。在TAU‑Bench、AIME24、SWE‑bench等基准中取得70.1%等高分,性能领先多数开源模型。 **#### [A Comprehensive Survey of Self‑Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems](**https://arxiv.org/abs/2508.07407**)** - ***Authors****: Jinyuan Fang, Zaiqiao Meng - ***Affiliation****: University of Glasgow - ***TLDR****: 这篇综述指出现有代理部署后难以自我演化,提出包含“系统输入、代理系统、环境、优化器”四要素的自演化框架,回顾针对各组件的演化技术,并探讨生物医学、编程等领域的策略,同时强调评估、安全和伦理问题,为构建适应性终身系统奠定基础。 **#### [We‑Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning](**https://arxiv.org/abs/2508.10433**)** - ***Authors****: Runqi Qiao, Honggang Zhang - ***Affiliation****: WeChat, Tencent Inc - ***TLDR****: 为提升多模态大模型的数学推理,We‑Math 2.0构建了五层491个知识点的MathBook体系和难度分级的MathBook‑Standard/Pro数据集,提出“冷启动微调+渐进对齐强化学习”两阶段训练,并设计MathBookEval基准;实验表明其在多个公开数据集和自建评价上具有竞争性能和良好泛化。 **## Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens** - ***Year****: 2025 - ***Authors****: Chengshuai Zhao; Zhen Tan; Pingchuan Ma; Dawei Li; Bohan Jiang; Yancheng Wang; Yingzhen Yang; Huan Liu - ***Affiliations****: Arizona State University - ***Publication****: arXiv (arXiv:2508.01191v3) - ***TLDR****: 首先定义一组可计算的变换(例如字母整体顺序后移动),让模型从初始word(例如 apple)开始进行变换,构造不同的数据集,测试模型能力(从头训练的transformer)