📚 Weekly Papers

|Archive
2026-03-02
2026-03-02 ~ 2026-03-08
From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
Authors: Xiangyan Qu, Gaopeng Gou
Affiliation: Institute of Information Engineering, Chinese Academy of Sciences, School of Cyber Security, University of Chinese Academy of Sciences
论文针对图像编辑中的测试时扩展效率低与冗余采样问题,提出 ADE-CoT 自适应框架:按编辑难度动态分配采样预算、用区域定位与描述一致性做早期筛选、并在达到意图对齐时深度优先提前停止。在 Step1X-Edit、BAGEL、FLUX.1 Kontext 上实现更优性能-效率折中,并较 Best-of-N 获得超过 2 倍加速。
OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens
Authors: Yiying Yang, Gang Yu
Affiliation: Fudan University, StepFun
该工作面向 Lottie 向量动画生成,设计参数化 Lottie tokenizer,把原始 JSON 转成形状、运动函数与控制参数序列,并在预训练视觉语言模型上实现多模态自回归生成。配合 200 万规模的 MMLottie-2M 数据集,模型可统一支持 text-to-Lottie、text-image-to-Lottie 与 video-to-Lottie,提升语义对齐和动画质量。
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation
Authors: Weinan Dai, Hao Zhou
Affiliation: ByteDance Seed, Institute for AI Industry Research (AIR), Tsinghua University, SIA-Lab of Tsinghua AIR and ByteDance Seed
CUDA Agent 通过大规模 agentic 强化学习提升 CUDA 内核自动优化能力,核心包括可扩展数据合成、带自动验证与性能分析的技能增强开发环境,以及稳定训练的 RL 技术。方法在 KernelBench 三个难度上相对 torch.compile 分别实现 100%、100%、92% 更快率,在最难设置上也显著超过多种强专有模型。
Utonia: Toward One Encoder for All Point Clouds
Authors: Yujia Zhang, Hengshuang Zhao
Affiliation: The University of Hong Kong
论文提出统一的自监督点云编码器 Utonia,在遥感、自动驾驶 LiDAR、室内重建、CAD 与视频重建点云等多域联合训练同一 Point Transformer。结果显示跨域迁移显著增强,并出现联合训练才有的表示能力;其特征还能提升机器人操作中的 VLA 策略与视觉语言模型的空间推理表现,朝 3D 基础模型迈进一步。
Understanding LoRA as Knowledge Memory: An Empirical Analysis
Authors: Seungju Back, Sungjin Ahn
Affiliation: KAIST
这项工作把 LoRA 视作可插拔的参数化知识记忆,而非仅是任务微调工具,并系统评估其“存得下、取得出、可组合、可扩展”的边界。实验覆盖容量、知识内化、多模块扩展与长上下文推理,结论是 LoRA 可作为 RAG/ICL 的互补记忆轴,但在配置不当时会出现明显失效,需要按容量与组合策略进行工程化设计。
Beyond Language Modeling: An Exploration of Multimodal Pretraining
Authors: Shengbang Tong, Luke Zettlemoyer
Affiliation: FAIR, Meta, New York University
论文通过从零开始的受控实验系统研究原生多模态预训练,采用 Transfusion 框架将语言 next-token 训练与视觉扩散训练统一。作者提出四点关键发现:RAE 视觉表征最均衡;视觉与语言数据联合训练有协同增益;统一训练可自然涌现世界建模能力;MoE 能更高效扩展并形成模态专门化。IsoFLOP 分析还表明视觉比语言更“吃数据”,MoE 有助于缓解该扩展不对称。