自监督视觉骨干DINOv3通过扩大数据与模型、并以Gram anchoring解决长程训练中稠密特征退化,辅以后处理增强分辨率与文本对齐;无需微调即在多项任务上取得领先,提供通用高质量视觉表征。
构建覆盖491知识点与1,819原理的MathBook体系,形成Standard/Pro数据并定义三维难度;提出“冷启动微调 + 渐进对齐RL”,并给出MathBookEval。多基准结果表明在多模态数理推理上具较强泛化。 # 2025-08-22 **#### [Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning](**https://arxiv.org/abs/2508.08221**)** - ***Authors****: Zihe Liu, Bo Zheng - ***Affiliation****: Alibaba Group - ***TLDR****: 全面梳理并复现实用的推理型 RL 技术,解析技巧机理与适用场景,给出选择与配方指南;提出简化的 Lite PPO 组合,在多数学基准上优于 GRPO/DAPO,提供可落地的训练建议。 **#### [PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts](**https://arxiv.org/abs/2508.09848**)** - ***Authors****: Mo Yu, Jie Zhou - ***Affiliation****: WeChat AI, Tencent - ***TLDR****: 提出 PRELUDE:判断角色前传是否与原著一致,强调跨章节证据聚合与多步推理并规避记忆捷径。实验显示主流模型较人类落后超 15%,且推理正确率差距超 30%,凸显长文本理解短板。 **#### [OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows](**https://arxiv.org/abs/2508.09124**)** - ***Authors****: Weixuan Wang, Saravan Rajmohan - ***Affiliation****: University of Edinburgh; Microsoft - ***TLDR****: 提出 OdysseyBench,评测代理在 Word/Excel/PDF/邮件/日历等多应用的长程办公流程;以 HOMERAGENTS 自动生成 602 个复杂任务,覆盖真实上下文与多步推理。结果显示主流代理明显受挫,有助于更贴近实务的能力评估与改进。 **#### [The Illusion of Progress: Re-evaluating Hallucination Detection in LLMs](**https://arxiv.org/abs/2508.08285**)** - ***Authors****: Denis Janiak, Tomasz Kajdanowicz - ***Affiliation****: Wroclaw University of Science and Technology; University of Technology Sydney; New York University - ***TLDR****: 系统重评 LLM 幻觉检测,发现基于 ROUGE 的评估高召回但精度极低,甚至被答复长度等简单特征“投机”。作者倡导语义对齐、稳健的评估框架,避免夸大检测器效果,提升输出可信度。 **#### [DINOv3](**https://arxiv.org/abs/2508.10104**)** - ***Authors****: Oriane Siméoni, Piotr Bojanowski - ***Affiliation****: Meta AI Research; - ***TLDR****: 自监督视觉骨干 DINOv3 通过扩大数据与模型、并以 Gram anchoring 解决长程训练中稠密特征退化,辅以后处理增强分辨率与文本对齐;无需微调即在多项任务上取得领先,提供通用高质量视觉表征。 **#### [ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability](**https://arxiv.org/abs/2508.07050**)** - ***Authors****: Wenhan Liu, Zhicheng Dou - ***Affiliation****: Renmin University of China; Baidu; - ***TLDR****: 面向检索重排,构建推理密集训练数据并采用两阶段 SFT+RL 后训;基于列表式设定设计多视角排名奖励以强化推理。ReasonRank 在 BRIGHT 榜单达 40.6,且延迟低于点式重排器,显著优于现有方法。 **#### [We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning](**https://arxiv.org/abs/2508.10433**)** - ***Authors****: Runqi Qiao, Honggang Zhang - ***Affiliation****: WeChat Vision; Tsinghua University - ***TLDR****: 构建覆盖 491 知识点与 1,819 原理的 MathBook 体系,形成 Standard/Pro 数据并定义三维难度;提出“冷启动微调 + 渐进对齐 RL”,并给出 MathBookEval。多基准结果表明在多模态数理推理上具较强泛化。