本文通过数据分布视角审视大型语言模型(LLMs)的Chain-of-Thought (CoT) 推理,质疑其感知到的推理能力。它引入DataAlchemy,一个从头训练LLMs的受控环境,并在任务、长度和格式维度上探测CoT推理。结果显示CoT推理在训练分布内有效,但在分布偏移下失效,揭示其为模式匹配而非真正推理。该研究突显CoT的脆弱性,提供对其局限性的洞见,并强调需要具有泛化推理的模型,代码可在https://github.com/ChengshuaiZhao0/DataAlchemy获取。
GEPA(Genetic-Pareto)是一种基于自然语言反思的提示优化器,适用于包含大型语言模型(LLM)的复合AI系统。GEPA通过分析系统轨迹(如推理和工具调用)诊断问题,提出并测试提示更新,并结合Pareto前沿的互补经验。与强化学习方法GRPO相比,GEPA在四个任务上平均提升10%,最高20%,且使用多达35倍更少的回合数。GEPA还优于领先的提示优化器MIPROv2,在两个LLM上提升超过10%,并在代码优化中显示出潜力。该方法无需复杂训练,简化了提示优化过程,并为高效AI系统设计提供了新路径。
本文提出几何均值策略优化(GMPO),作为群组相对策略优化(GRPO)的稳定变体。GMPO通过最大化token级奖励的几何均值而非算术均值,减少了对异常值的敏感性,从而稳定策略更新。理论和实验分析表明,GMPO在梯度、KL散度和token熵方面表现更稳定。在数学推理(如AIME24、AMC)和多模态推理(如Geometry3K)基准测试中,GMPO分别比GRPO提升4.1%和1.4%的Pass@1准确率。代码可在https://github.com/callsys/GMPO获取。该方法无需复杂稳定策略,简化了RL基础设施设计,并显著提升了最新模型的性能,为大规模RL训练奠定基础。
本文介绍了Group Sequence Policy Optimization (GSPO),一种用于训练大型语言模型的稳定、高效的强化学习算法。GSPO基于序列似然定义重要性比率,进行序列级别的裁剪、奖励和优化。与GRPO相比,GSPO在训练稳定性和效率上表现出色,尤其在Mixture-of-Experts模型的RL训练中表现出色,无需复杂稳定策略,并简化了RL基础设施设计。其优势显著提升了最新Qwen3模型的性能,为大规模RL训练奠定了基础。实验结果显示,GSPO在多个基准测试中保持更高准确率,并减少了训练波动。
Graph-R1是一种通过端到端强化学习(RL)优化的代理式GraphRAG框架,旨在解决传统GraphRAG方法在知识构建成本高、检索固定且依赖长上下文推理的问题。它采用轻量级知识超图构建,将检索建模为多轮代理-环境交互,并通过统一的奖励机制优化代理过程。在标准RAG数据集上的实验表明,Graph-R1在推理准确性、检索效率和生成质量上优于传统GraphRAG和RL增强的RAG方法。代码已公开,地址为https://github.com/LHRLAB/Graph-R1。该框架为高效知识检索提供了新范式,适用于复杂查询场景。
本文提出了一种名为“persona vectors”的方法,用于监控和控制大型语言模型(LLMs)中助手的性格特质,如恶意、谄媚和幻觉倾向。通过在模型激活空间中识别与这些特质相关的线性方向,persona vectors可用于监测部署时的性格波动,并预测和控制训练中的性格变化。研究发现,微调后有意或无意的性格变化与相关persona vectors的偏移高度相关,可通过事后干预或预防性引导方法减轻。此外,persona vectors还能标记可能导致不良性格变化的训练数据,方法自动化,仅需自然语言描述即可适用于任何性格特质。
VeriGUI引入了一个新型数据集,用于评估GUI代理在长时序任务中的表现,聚焦于桌面和web环境中的复杂、相互依赖的子任务,由人类专家标注。它强调长链复杂性和子任务级可验证性,支持多样化探索策略。使用各种基础模型的代理实验揭示了显著性能差距,突显了改进规划和决策的需求。贡献包括数据集、带有指标如任务成功率的全面基准,以及对代理局限性的洞见,促进通用GUI代理的研究。
Seed Diffusion Preview是一种大规模离散状态扩散语言模型,在H20 GPU上实现2146 tokens/s的高速推理,解决逐token解码的延迟问题。它采用两阶段课程(基于掩码和编辑的损坏)、约束顺序训练和在线策略学习,实现高效并行生成。在HumanEval和LiveCodeBench等代码基准上评估,它保持竞争性能,在速度-质量权衡中超越Mercury Coder和Gemini Diffusion。贡献包括速度与质量的新平衡,建立代码模型的新状态艺术,演示可在https://studio.seed.ai/exp/exp/seed_diffusion/查看。
Cognitive Kernel-Pro引入了一个完全开源、免费的多模块代理框架,以民主化AI代理开发,聚焦于web、文件、代码和推理任务。它使用查询构建、轨迹和可验证答案来 curation 高质量训练数据,并采用代理反思和投票提升性能。在GAIA上评估,8B参数模型超越WebDancer和WebSailor,在开源、免费工具代理中实现状态艺术结果,并为可访问、高能力AI代理设定新标准。
扩散大型语言模型(DLLMs)提供并行生成和全局上下文建模,但受固定生成长度限制,导致性能权衡。DAEDAL是一种无训练去噪策略,通过动态调整长度解决此问题: 初始长度调整使用EOS token置信度设置任务适当长度,迭代掩码插入扩展不足区域。在实验中,DAEDAL实现与固定长度基线相当或优越的性能,并提高计算效率,提升DLLMs的适应性,并桥接与自回归模型的差距。