论文针对图像编辑中的测试时扩展效率低与冗余采样问题,提出 ADE-CoT 自适应框架:按编辑难度动态分配采样预算、用区域定位与描述一致性做早期筛选、并在达到意图对齐时深度优先提前停止。在 Step1X-Edit、BAGEL、FLUX.1 Kontext 上实现更优性能-效率折中,并较 Best-of-N 获得超过 2 倍加速。
CUDA Agent 通过大规模 agentic 强化学习提升 CUDA 内核自动优化能力,核心包括可扩展数据合成、带自动验证与性能分析的技能增强开发环境,以及稳定训练的 RL 技术。方法在 KernelBench 三个难度上相对 torch.compile 分别实现 100%、100%、92% 更快率,在最难设置上也显著超过多种强专有模型。
论文通过从零开始的受控实验系统研究原生多模态预训练,采用 Transfusion 框架将语言 next-token 训练与视觉扩散训练统一。作者提出四点关键发现:RAE 视觉表征最均衡;视觉与语言数据联合训练有协同增益;统一训练可自然涌现世界建模能力;MoE 能更高效扩展并形成模态专门化。IsoFLOP 分析还表明视觉比语言更“吃数据”,MoE 有助于缓解该扩展不对称。