论文研究自演化多智能体社会中的安全退化问题,提出“自演化三难困境”,证明持续自演化、完全隔离与安全不变性无法同时满足。基于信息论框架与 Moltbook 等实验,作者展示封闭自演化会产生统计盲区并导致安全对齐不可逆衰减。
论文提出 Composition-RL,针对 RLVR 训练中大量通过率为 1 的“简单题”导致有效数据减少的问题,将多个可验证问题自动组合成新的可验证题目用于强化学习。实验覆盖 4B 到 30B 模型,显示推理能力稳定提升,并可结合课程式组合深度进一步增强效果。
论文提出 5B 级统一多模态模型 DeepGen 1.0,用于图像生成与编辑,在能力上接近或超过更大模型。核心方法包括分层特征对齐的 SCB(Stacked Channel Bridging)与三阶段数据驱动训练流程,以提升紧凑模型的语义理解和细粒度控制能力。
论文发布稀疏 MoE 模型 Step 3.5 Flash,以 196B 总参数、11B 激活参数兼顾推理能力与效率。模型结合 3:1 滑窗/全注意力与 MTP-3,并使用可验证信号与偏好反馈的可扩展 RL 框架,在 agent、代码与数学任务上取得接近前沿闭源模型的表现。
论文研究视频 MLLM 表征用于视频文本检索,发现预训练 MLLM 的中间层已包含丰富检索相关信息。作者提出结合中间层嵌入与校准头的无训练零样本检索方案,并进一步通过仅文本的轻量对齐策略提升视频-文本嵌入学习效果。
论文提出 OPUS 动态数据选择框架,在预训练每轮迭代中以“优化器诱导的更新空间”定义样本效用,而非静态启发式或原始梯度标准。通过 Ghost+CountSketch 与 Boltzmann 采样实现可扩展计算,在仅约 4.7% 额外开销下显著提升多种语料、优化器与模型规模下的预训练效果。
论文提出 Code2World,将 GUI 世界建模转化为可渲染代码生成,以同时获得高视觉保真与结构可控性。作者构建 AndroidCode 数据集,并采用渲染感知强化学习优化生成代码的视觉语义一致性与动作一致性,在下一界面预测和下游导航任务上取得显著提升。
技术报告介绍统一端到端 GUI Agent UI-Venus-1.5,包含 2B、8B 和 30B-A3B 多个规模版本。相比前代,其通过大规模中期训练、全轨迹在线强化学习和模型融合统一 grounding/web/mobile 能力,在多项 GUI 基准和真实中文移动应用导航中取得更强表现。
论文提出弱驱动学习范式 WMSS(Weak Agents Can Make Strong Agents Stronger),利用模型历史弱检查点中的“可恢复学习缺口”继续提升强模型。方法基于熵动态识别补偿学习目标,在数学推理和代码生成任务上突破后训练饱和瓶颈,且不增加推理成本。
论文提出 TermiGen,用于为终端代理合成高保真可执行环境与鲁棒轨迹数据,以缓解环境稀缺和专家轨迹分布失配问题。其通过多智能体迭代生成任务/容器,并用 Generator-Critic 机制注入错误构造纠错型轨迹,使开源模型在 TerminalBench 上达到新的 SOTA。
论文提出 QuantaAlpha,将一次完整 alpha 挖掘视作轨迹,并通过轨迹级变异与交叉实现可控的多轮探索与经验复用。系统还能定位轨迹中的次优步骤进行定向修正,并约束因子语义与代码一致性,在 CSI300 及跨市场迁移实验中取得更优收益与稳健性。
论文提出开源音视频联合生成模型 MOVA,面向同步语音、环境音和音乐生成,避免传统级联式视频后配音流程的误差累积。模型采用 32B 总参数、18B 激活参数的 MoE 架构,支持图文到音视频生成,并提供推理、LoRA 微调与提示增强能力。
论文聚焦多模态表示中的 Modality Gap,提出固定参考系下的模态间隙理论,将其分解为稳定偏置与各向异性残差。基于该建模,作者给出训练免的 ReAlign 对齐策略和可扩展训练范式 ReVision,以更高效地改善大规模多模态模型的跨模态对齐。