**TLDR:** 从统计学习视角解释“幻觉”源于训练与评测的激励错配:预训练与0/1式评测鼓励模型在不确定时“猜测”而非明示不确定。作者建议在主流基准中不惩罚弃答,以减少过度自信与幻觉的系统性产生。
构建“胡言乱语”理解基准,考查模型在语法通顺但语义荒诞文本上的深层解释能力;多模型评测表明现有LLM常以貌取人、缺乏一致性与因果辨识,并给出训练与评测协议以揭示并缓解此类偏差。
构建 ELV-Halluc 基准,以执行逻辑与视觉证据联合评测视觉指令跟随中的幻觉;系统分析主流 VLM/代理在定位、动作与状态描述等环节的失真,并提供可复现实验与资源。
**TLDR:** 系统训练多种 DINOv3 视觉模型并与人脑 fMRI/MEG 数据比对,发现模型规模、训练量与图像类型独立且交互地提升“脑相似度”;最大模型与人本图像最佳。相似性随训练先对齐早期视觉区,后对齐前额叶等高层区域,并与皮层厚度、髓鞘、发育扩张与时间尺度等结构功能特征相关。
提出 TiG,将 RL 决策过程重构为语言建模,LLM 在游戏环境中交互学习程序性知识并生成可解释决策链;以更低数据与算力达到与传统 RL 相当的表现。
提出SimpleTIR,在多轮工具调用中用RL训练并通过过滤“空转”轨迹抑制分布漂移与梯度爆炸,稳定训练并显著提升数学推理(如AIME24由22.1升至50.5,基座为Qwen2.5-7B),并诱发自纠错与交叉验证等策略。
**TLDR:** 定义“可视化写作”范式:通过实体关系图、空间位置与事件时间线等可编辑可视化来操控文本。原型编辑器两项用户研究显示,该方式有助于高层规划、跟踪故事要素与探索变体,促进创意与可控修改。
推出VerlTool,一体化ARLT训练框架:与VeRL上游对齐,标准化多模态工具API(代码、检索、SQL、视觉等),异步rollout实现近2×加速,覆盖数学、知识问答、SQL、视觉、搜索与软工6域评测,提供可扩展的工具增强RL基建。
**TLDR:** 训练 14B 数学推理模型 rStar2-Agent,引入在 Python 代码环境中的“智能体式”RL 与 GRPO-RoC 策略,以少量算力快速达到前沿水平;AIME24/25 等基准优于或匹敌更大模型,并在对齐、科学推理与工具使用上具备良好泛化,代码与配方已开源。
将 LLM 路由建模为预算约束的情境 bandit。先用人类偏好数据预训练查询与 LLM 的共享嵌入空间,再用在线 bandit 反馈持续更新;并提出与多选背包结合的在线成本策略,在不同 token 预算下最大化效用,较基线更低后悔与更高性能。
系统综述“隐式推理”,即模型在内部结构中完成推理而不输出文本链路。提出按执行范式划分:潜在优化、信号引导控制、层循环执行;汇总结构/行为/表示证据与评测基准,讨论效率、可靠性与开放问题,并维护相关资源。
从理论上证明单向量嵌入检索存在“表示容量”上限:可返回的 top-k 组合受嵌入维度限制。作者据此构造 LIMIT 数据集并实证验证,显示多项 SoTA 在简单任务上仍失败;提示在复杂相关性下应考虑跨编码器或多向量等替代范式。
综述自进化智能体:提出统一反馈环框架(输入-代理系统-环境-优化器),梳理在提示、记忆、工具、工作流与多智能体协作等环节的演化策略;并讨论跨领域应用(如生物医学/编程/金融)、评测指标与安全伦理,为构建可持续改进的代理系统奠基。
综述 Agentic RL:将LLM从一次性生成转为在POMDP中具备规划、工具使用、记忆与自改进等能力的自主体;提出能力与应用双重分类,汇编环境/基准/框架版图,强调以强化学习把模块化能力转化为稳健行为,并总结机遇与挑战。
提出A.S.E仓库级代码安全基准:从真实含CVE仓库构造任务、容器化可复现评测,覆盖安全/质量/稳定性三维。结果显示Claude-3.7-Sonnet总体最佳、Qwen3-235B在安全分最高,“快思考”解码普遍优于“慢思考”推理。
提出统一可扩展的实体智能视觉模型 EO-1,利用多源 embodied 数据预训练并适配多机器人多任务,在跨域感知与泛化上表现强劲,兼顾零/小样本能力与部署效率。
提出 InfoSeek 数据合成框架:以双代理递归构建“研究树”,再转化为可验证问答,覆盖结构化深度检索任务;生成高质量、可控复杂度数据,提升模型推理与检索协同能力。
提出 Transition Models,以解析的连续时间状态转移方程统一任意步数生成;865M 模型在少步/多步均超越 SD3.5 与 FLUX.1,随步数单调提升,并支持原生 4K 高保真合成。
提出 PACS,将 RLVR 的策略优化改写为监督学习的打分函数,隐式耦合 actor-critic 并提升稳定性;在数学推理上优于 PPO/GRPO,AIME-2025 pass@256 达 59.78%。
**TLDR:** 提出通用深度调研系统 UDR,可包裹任意大模型,让用户无须微调即可自定义调研策略,并提供最小/扩展/密集三类示例策略与交互界面,支持灵活试验与组合工具链的研究流程。