2026-03-02 - Weekly Papers

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Authors: Xiangyan Qu, Gaopeng Gou

Affiliation: Institute of Information Engineering, Chinese Academy of Sciences, School of Cyber Security, University of Chinese Academy of Sciences

论文针对图像编辑中的测试时扩展效率低与冗余采样问题，提出 ADE-CoT 自适应框架：按编辑难度动态分配采样预算、用区域定位与描述一致性做早期筛选、并在达到意图对齐时深度优先提前停止。在 Step1X-Edit、BAGEL、FLUX.1 Kontext 上实现更优性能-效率折中，并较 Best-of-N 获得超过 2 倍加速。

OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens

Authors: Yiying Yang, Gang Yu

Affiliation: Fudan University, StepFun

该工作面向 Lottie 向量动画生成，设计参数化 Lottie tokenizer，把原始 JSON 转成形状、运动函数与控制参数序列，并在预训练视觉语言模型上实现多模态自回归生成。配合 200 万规模的 MMLottie-2M 数据集，模型可统一支持 text-to-Lottie、text-image-to-Lottie 与 video-to-Lottie，提升语义对齐和动画质量。

CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Authors: Weinan Dai, Hao Zhou

Affiliation: ByteDance Seed, Institute for AI Industry Research (AIR), Tsinghua University, SIA-Lab of Tsinghua AIR and ByteDance Seed

CUDA Agent 通过大规模 agentic 强化学习提升 CUDA 内核自动优化能力，核心包括可扩展数据合成、带自动验证与性能分析的技能增强开发环境，以及稳定训练的 RL 技术。方法在 KernelBench 三个难度上相对 torch.compile 分别实现 100%、100%、92% 更快率，在最难设置上也显著超过多种强专有模型。

Utonia: Toward One Encoder for All Point Clouds

Authors: Yujia Zhang, Hengshuang Zhao

Affiliation: The University of Hong Kong

论文提出统一的自监督点云编码器 Utonia，在遥感、自动驾驶 LiDAR、室内重建、CAD 与视频重建点云等多域联合训练同一 Point Transformer。结果显示跨域迁移显著增强，并出现联合训练才有的表示能力；其特征还能提升机器人操作中的 VLA 策略与视觉语言模型的空间推理表现，朝 3D 基础模型迈进一步。

Understanding LoRA as Knowledge Memory: An Empirical Analysis

Authors: Seungju Back, Sungjin Ahn

Affiliation: KAIST

这项工作把 LoRA 视作可插拔的参数化知识记忆，而非仅是任务微调工具，并系统评估其“存得下、取得出、可组合、可扩展”的边界。实验覆盖容量、知识内化、多模块扩展与长上下文推理，结论是 LoRA 可作为 RAG/ICL 的互补记忆轴，但在配置不当时会出现明显失效，需要按容量与组合策略进行工程化设计。

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Authors: Shengbang Tong, Luke Zettlemoyer

Affiliation: FAIR, Meta, New York University

论文通过从零开始的受控实验系统研究原生多模态预训练，采用 Transfusion 框架将语言 next-token 训练与视觉扩散训练统一。作者提出四点关键发现：RAE 视觉表征最均衡；视觉与语言数据联合训练有协同增益；统一训练可自然涌现世界建模能力；MoE 能更高效扩展并形成模态专门化。IsoFLOP 分析还表明视觉比语言更“吃数据”，MoE 有助于缓解该扩展不对称。

📚 Weekly Papers