提出 TTT-Discover:在单个测试问题上进行“测试时训练”(RL式持续更新权重),让模型边探索边学习以产出“一个最优解”。在数学、GPU kernel、算法竞赛与生物去噪等多领域多任务刷新/逼近SOTA,并强调用开源模型与公开代码可复现。
提出 MCP-SIM 自纠错多代理框架,将自然语言需求转成物理仿真与解释。通过多代理分工(补全需求、校验一致性、引入物理/数值约束与记忆回路)缓解提示不充分、多语言与幻觉导致的失败,提高仿真可靠性与可解释性。
构建面向 LLM Agent 的紧凑、细粒度、多维评测基准,把复杂任务拆成可控能力维度(如工具使用、规划、记忆、检索与交互等),以更精准地刻画能力画像与失败模式,并用于对比不同模型/系统,服务于更高效的Agent设计与诊断。
指出长任务规划瓶颈在“上下文纠缠”:跨子任务的混合历史造成认知负载与错误传播。提出训练免的 TDP:Supervisor 构建子任务DAG并调度;Planner/Executor 仅用节点局部上下文计划与执行,并在局部范围修复偏差,从而提升鲁棒性并显著降低 token 成本。
对 8 个主流开源多代理框架进行大规模仓库挖掘:汇总 4.2 万次提交与 4731 个已解决 issue,识别持续/稳定/爆发式三类演化轨迹;量化提交类型与常见问题主题、解决时延,指出测试基础设施、文档质量与维护流程是生态快速增长下的关键脆弱点。
以匹配控制组 + 分期差分中的差分(staggered DiD)做纵向因果分析,评估“自主PR级编码代理”相对IDE助手的真实影响。结果显示:当代理是项目首次引入的AI工具时吞吐提升更明显但偏前置;若已有IDE助手收益有限。与此同时,静态告警与复杂度等质量风险更持久,提示需权衡速度与可维护性。
提出面向AI智能体的诊断式安全护栏:用“where/how/what”三维风险分类组织风险空间,构建细粒度ATBench,并训练AgentDoG在交互轨迹中监测并诊断不安全或“看似安全但不合理”的行为根因,提供可追溯解释以支持更有效的对齐与审计。
系统综述LLM赋能数据准备的全景:围绕数据清洗、数据集成、数据增益三大任务给出方法谱系与代表工作,整理常用数据集与评测指标,并讨论可扩展性成本、幻觉与可靠性、评测不足等核心瓶颈与未来研究路线,附资源汇总链接。
聚焦“agent-native”中期训练:从真实PR/提交历史与可执行仓库环境构造两类轨迹(上下文原生+环境原生),对齐软件工程中的行动-观察-反馈闭环,缓解静态训练数据与真实开发分布不匹配;在SWE-Bench Verified上以更少中训token获得更强开源代码代理表现。
介绍560B MoE推理模型LongCat-Flash-Thinking-2601,面向搜索/工具调用/代码等agent任务,通过合成结构化轨迹中训+大规模多环境异步RL(DORA扩展)提升泛化与鲁棒性,并提供“Heavy Thinking”测试时扩展以增强复杂推理与多轮交互能力,同时开源权重、数据与训练配方。
针对编码代理长上下文带来的成本与噪声,提出自适应上下文剪枝:代理生成当前任务目标提示(goal hint),0.6B轻量“skimmer”按行选择最相关代码片段,尽量保持语法/逻辑结构;在多项代理与长代码理解基准上实现显著token削减(23–54%)且性能影响很小。
提出一个端到端自动化流水线,把“研究概念/想法”逐步转成完整科学论文叙事(结构、论点、相关工作串联、成稿)。核心在于把写作从一次性生成拆成多阶段可控过程,减少反复在线检索与临场总结的开销,面向更稳定的“概念→叙事→论文”转化。
针对文生图模型的“空间智能”提出系统基准:评测对象的相对位置、排列、包含/相交等空间约束是否被遵守,并用可自动判定的指标量化。通过分解任务与错误类型,揭示主流模型在组合空间关系上的稳定短板,为训练数据与对齐目标提供改进方向。
研究稀疏扩展的另一条路:与其扩大 MoE experts,不如扩大 embedding(含 N-gram embedding 分支)。作者实证给出 embedding scaling 的优势区间与关键架构因素,并提出 LongCat-Flash-Lite(约 68.5B 参数、≈3B 激活)在效率与效果上优于同级 MoE 基线,且更易获得推理加速。
发现 GRPO 在“难题”上的更新幅度系统性偏小,导致数学推理强化学习对关键难点覆盖不足。提出难度感知的 GRPO(按题目难度重加权优势估计/更新)+ 多维度问题改写(在保持答案不变的前提下提升难度与多样性),形成“更难数据→更有效学习”的闭环,在多项数学推理任务上显著提升。
发布开源交互式世界模型/世界模拟器 LingBot-World(基于视频生成),强调高保真与强动态、分钟级长时程一致性(长程记忆)、以及低延迟实时交互(约 16fps、<1s 延迟)。作者公开代码与模型,面向内容创作、游戏与机器人学习等需要“可交互环境动力学”的应用。
提出面向科学发现的多模态大模型 Innovator-VL,主打“可复现、透明、数据高效”。给出从数据构建到 SFT、RL 与评测的全流程配方,用不到 500 万条精选科学样本获得强科学多模态推理能力,同时保持通用视觉任务竞争力;并配套开源模型/数据与训练细节,便于社区复现与扩展。