2025-09-07 - Weekly Papers

Why Language Models Hallucinate

Authors: Adam Tauman Kalai; Adam Tauman Kalai.

Affiliation: OpenAI.

**TLDR：** 从统计学习视角解释“幻觉”源于训练与评测的激励错配：预训练与0/1式评测鼓励模型在不确定时“猜测”而非明示不确定。作者建议在主流基准中不惩罚弃答，以减少过度自信与幻觉的系统性产生。

Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

Authors: Yang Wang; Chenghua Lin.

Affiliation: The University of Manchester; The University of Manchester.

构建“胡言乱语”理解基准，考查模型在语法通顺但语义荒诞文本上的深层解释能力；多模型评测表明现有LLM常以貌取人、缺乏一致性与因果辨识，并给出训练与评测协议以揭示并缓解此类偏差。

ELV-Halluc: Evaluating Hallucinations in Visual Grounded Instruction Following

Authors: Hao Lu; Hao Lu.

Affiliation: SenseTime Research.

构建 ELV-Halluc 基准，以执行逻辑与视觉证据联合评测视觉指令跟随中的幻觉；系统分析主流 VLM/代理在定位、动作与状态描述等环节的失真，并提供可复现实验与资源。

Disentangling the Factors of Convergence between Brains and Computer Vision Models

Authors: Joséphine Raugel; Jean-Rémi King.

Affiliation: Meta AI; École Normale Supérieure – PSL.

**TLDR：** 系统训练多种 DINOv3 视觉模型并与人脑 fMRI/MEG 数据比对，发现模型规模、训练量与图像类型独立且交互地提升“脑相似度”；最大模型与人本图像最佳。相似性随训练先对齐早期视觉区，后对齐前额叶等高层区域，并与皮层厚度、髓鞘、发育扩张与时间尺度等结构功能特征相关。

Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models

Authors: Yi Liao; Wei Yang.

Affiliation: Tencent; Tencent.

提出 TiG，将 RL 决策过程重构为语言建模，LLM 在游戏环境中交互学习程序性知识并生成可解释决策链；以更低数据与算力达到与传统 RL 相当的表现。

SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

Authors: Zhenghai Xue; Zhenghai Xue.

Affiliation: Nanyang Technological University; Nanyang Technological University.

提出SimpleTIR，在多轮工具调用中用RL训练并通过过滤“空转”轨迹抑制分布漂移与梯度爆炸，稳定训练并显著提升数学推理（如AIME24由22.1升至50.5，基座为Qwen2.5-7B），并诱发自纠错与交叉验证等策略。

Visual Story-Writing: Writing by Manipulating Visual Representations of Stories

Authors: Damien Masson; Damien Masson.

Affiliation: University of Toronto.

**TLDR：** 定义“可视化写作”范式：通过实体关系图、空间位置与事件时间线等可编辑可视化来操控文本。原型编辑器两项用户研究显示，该方式有助于高层规划、跟踪故事要素与探索变体，促进创意与可控修改。

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

Authors: Dongfu Jiang; Wenhu Chen.

Affiliation: University of Waterloo; University of Waterloo.

推出VerlTool，一体化ARLT训练框架：与VeRL上游对齐，标准化多模态工具API（代码、检索、SQL、视觉等），异步rollout实现近2×加速，覆盖数学、知识问答、SQL、视觉、搜索与软工6域评测，提供可扩展的工具增强RL基建。

rStar2-Agent: Agentic Reasoning Technical Report

Authors: Ning Shang; Li Lyna Zhang, Mao Yang.

Affiliation: Microsoft Research.

**TLDR：** 训练 14B 数学推理模型 rStar2-Agent，引入在 Python 代码环境中的“智能体式”RL 与 GRPO-RoC 策略，以少量算力快速达到前沿水平；AIME24/25 等基准优于或匹敌更大模型，并在对齐、科学推理与工具使用上具备良好泛化，代码与配方已开源。

Adaptive LLM Routing under Budget Constraints

Authors: Pranoy Panda; Vishal Sharma.

Affiliation: Fujitsu Research.

将 LLM 路由建模为预算约束的情境 bandit。先用人类偏好数据预训练查询与 LLM 的共享嵌入空间，再用在线 bandit 反馈持续更新；并提出与多选背包结合的在线成本策略，在不同 token 预算下最大化效用，较基线更低后悔与更高性能。

Implicit Reasoning in Large Language Models: A Comprehensive Survey

Authors: Jindong Li; Jindong Li.

Affiliation: Hong Kong University of Science and Technology (Guangzhou).

系统综述“隐式推理”，即模型在内部结构中完成推理而不输出文本链路。提出按执行范式划分：潜在优化、信号引导控制、层循环执行；汇总结构/行为/表示证据与评测基准，讨论效率、可靠性与开放问题，并维护相关资源。

On the Theoretical Limitations of Embedding-Based Retrieval

Authors: Orion Weller; Jinhyuk Lee.

Affiliation: Johns Hopkins University; Google DeepMind.

从理论上证明单向量嵌入检索存在“表示容量”上限：可返回的 top-k 组合受嵌入维度限制。作者据此构造 LIMIT 数据集并实证验证，显示多项 SoTA 在简单任务上仍失败；提示在复杂相关性下应考虑跨编码器或多向量等替代范式。

A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

Authors: Jinyuan Fang; Zaiqiao Meng.

Affiliation: University of Glasgow.

综述自进化智能体：提出统一反馈环框架（输入-代理系统-环境-优化器），梳理在提示、记忆、工具、工作流与多智能体协作等环节的演化策略；并讨论跨领域应用（如生物医学/编程/金融）、评测指标与安全伦理，为构建可持续改进的代理系统奠基。

The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Authors: Guibin Zhang; Guibin Zhang.

Affiliation: National University of Singapore; National University of Singapore.

综述 Agentic RL：将LLM从一次性生成转为在POMDP中具备规划、工具使用、记忆与自改进等能力的自主体；提出能力与应用双重分类，汇编环境/基准/框架版图，强调以强化学习把模块化能力转化为稳健行为，并总结机遇与挑战。

A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

Authors: Keke Lian; Hui Li; Dong Zhang.

Affiliation: Tencent; Peking University.

提出A.S.E仓库级代码安全基准：从真实含CVE仓库构造任务、容器化可复现评测，覆盖安全/质量/稳定性三维。结果显示Claude-3.7-Sonnet总体最佳、Qwen3-235B在安全分最高，“快思考”解码普遍优于“慢思考”推理。

EmbodiedOneVision: A Unified and Scalable Vision Model for Embodied AI

Authors: Delin Qu; Dong Wang.

Affiliation: Fudan University; Shanghai AI Laboratory.

提出统一可扩展的实体智能视觉模型 EO-1，利用多源 embodied 数据预训练并适配多机器人多任务，在跨域感知与泛化上表现强劲，兼顾零/小样本能力与部署效率。

Open Data Synthesis For Deep Research

Authors: Ziyi Xia; Zheng Liu.

Affiliation: Columbia University; Microsoft Research.

提出 InfoSeek 数据合成框架：以双代理递归构建“研究树”，再转化为可验证问答，覆盖结构化深度检索任务；生成高质量、可控复杂度数据，提升模型推理与检索协同能力。

Transition Models: Rethinking the Generative Learning Objective

Authors: Zidong Wang; Lei Bai.

Affiliation: Shanghai AI Laboratory; Shanghai AI Laboratory.

提出 Transition Models，以解析的连续时间状态转移方程统一任意步数生成；865M 模型在少步/多步均超越 SD3.5 与 FLUX.1，随步数单调提升，并支持原生 4K 高保真合成。

Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR

Authors: Jiaming Li; Min Yang.

Affiliation: University of Chinese Academy of Sciences; Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences.

提出 PACS，将 RLVR 的策略优化改写为监督学习的打分函数，隐式耦合 actor-critic 并提升稳定性；在数学推理上优于 PPO/GRPO，AIME-2025 pass@256 达 59.78%。

Universal Deep Research: Bring Your Own Model and Strategy

Authors: Peter Belcak; Peter Belcak.

Affiliation: NVIDIA Research.

**TLDR：** 提出通用深度调研系统 UDR，可包裹任意大模型，让用户无须微调即可自定义调研策略，并提供最小/扩展/密集三类示例策略与交互界面，支持灵活试验与组合工具链的研究流程。

📚 Weekly Papers