📚 Weekly Papers

|Archive
2026-01-12
2026-01-12 ~ 2026-01-18
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
Authors: Shih-Yang Liu, Xin Dong.
Affiliation: NVIDIA, HKUST.
研究指出多奖励RL中直接用GRPO做组内归一化会把不同奖励组合“压扁”成相同优势,导致训练信号分辨率下降甚至早停。作者提出GDPO:先对每个奖励维度分别做组归一化,再进行优势/更新整合,从而保留各奖励差异并提升多奖励优化的稳定性与收敛表现。
From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence
Authors: Marc Finzi, Andrew Gordon Wilson.
Affiliation: Carnegie Mellon University.
提出“epiplexity”作为面向计算受限观察者的信息度量,用来刻画数据中“可被学到的结构信息”,并解释香农熵/科氏复杂度在确定性变换、数据顺序、似然匹配等问题上与现代学习现象的张力。论文给出估计与实践流程,把该概念用于数据选择、数据生成/变换与提升OOD泛化。
Learning Latent Action World Models In The Wild
Authors: Quentin Garrido, Quentin Garrido.
Affiliation: FAIR at Meta.
面向无动作标注的“真实世界”视频,提出学习潜在动作的世界模型,让模型仅凭视频自动发现动作空间并预测动作后果。作者分析潜在动作应满足的性质与评估方式,发现“连续但受约束”的潜在动作比常用VQ更能表达复杂行为;还能跨视频迁移由主体引起的环境变化,并训练控制器把已知动作映射到潜在动作以支持规划任务。
Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Authors: Xin Cheng, Huishuai Zhang.
Affiliation: Peking University, DeepSeek-AI.
提出条件记忆作为区别于MoE“条件计算”的另一条稀疏轴:用Engram将经典N-gram式嵌入升级为O(1)确定性查表,实现可扩展知识检索。论文提出“稀疏分配”问题与U形缩放规律,指导在计算稀疏与静态记忆间分配容量;将Engram扩展到27B参数后,在同参数/同FLOPs下优于MoE,并显著提升知识、推理与长上下文检索表现。
Dr. Zero: Self-Evolving Search Agents without Training Data
Authors: Zhenrui Yue, Dong Wang.
Affiliation: Meta Superintelligence Labs, University of Illinois Urbana-Champaign.
提出Dr. Zero:无需外部训练数据的搜索代理自进化框架。通过“提问者(proposer)生成多样问题—解答者(solver)求解并反馈”的闭环,自动形成从易到难的课程并共同提升;同时提出HRPO按结构相似的“hop”分组构造基线,降低多步搜索训练的采样与计算开销。实验显示其在推理/搜索任务上可追平或超过监督方法。
STEP3-VL-10B Technical Report
Authors: Ailin Huang, Ailin Huang.
Affiliation: StepFun.
STEP3-VL-10B技术报告系统总结10B级多模态模型的配方:覆盖架构与数据构建(含OCR、GUI、空间理解等)、两阶段SFT对齐,以及结合可验证/偏好约束奖励的RL训练与推理时计算扩展(如并行协同推理)。报告展示其在OCR、GUI可执行任务、空间推理与多模态基准上的领先结果,强调通过“轨迹级”训练把视觉理解落到可操作动作。
Urban Socio-Semantic Segmentation with Vision-Language Reasoning
Authors: Yu Wang, Yansheng Li.
Affiliation: Wuhan University, Amap (Alibaba Group).
提出SocioSeg城市社会语义分割数据集,融合卫星影像与数字地图,并提供层级化的社会语义像素标注。进一步提出SocioReasoner框架,用视觉-语言推理模拟人类标注流程:先定位(框)再细化(框+点)的多阶段推理,并通过端到端RL优化训练。实验表明该方法在多项指标上优于现有SOTA,为城市理解与规划提供更细粒度语义支撑。
Rewarding the Rare: Uniqueness-Aware RL for Creative Problem Solving in LLMs
Authors: Zhiyuan Hu, Zhiyuan Hu.
Affiliation: MIT, NUS.
针对RL后训练常见的“探索塌缩”(pass@1提升但多样性与pass@k受损),提出Uniqueness-Aware RL:用LLM评审把同题多次rollout按“高层策略”聚类,按簇大小反比重加权优势,让正确但罕见的解题策略获得更高奖励。方法忽略表面措辞差异,直接鼓励策略层多样性,在数学/物理/医学推理等任务上稳定提升pass@k与AUC@k。
DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation
Authors: Zhen Huang, Yuxuan Wang.
Affiliation: Tsinghua University.
该论文提出 DeepResearchEval,一个用于“深度研究型任务”的自动化构建与评测框架,聚焦多步检索、证据整合与长链推理等高难度研究行为。作者通过程序化方式生成可验证的研究任务,并设计基于过程与结果的双重评估指标,系统比较不同 Agent 在规划、搜索与综合分析能力上的差异,为评估研究型 LLM Agent 提供了可扩展、低人工成本的新范式。
Controlled Self-Evolution for Algorithmic Code Optimization
Authors: Yao Fu, Yifan Hou.
Affiliation: Princeton University.
本文提出一种受控自进化(Controlled Self-Evolution)框架,使 LLM 能在约束条件下自动改进算法代码。方法通过形式化性能指标与安全约束,引导模型在多轮自我修改与验证中逐步优化算法效率与正确性。实验表明,该方法在多类算法任务中实现稳定性能提升,展示了 LLM 作为“自改进程序员”的潜力。
MAXS: Meta-Adaptive Exploration with LLM Agents
Authors: Jiahui Zhang, Zhiqiang Shen.
Affiliation: Shanghai Jiao Tong University.
MAXS 提出一种元自适应探索框架,将 LLM Agent 的探索策略视为可学习对象,通过跨任务元学习动态调整探索强度与方向。该方法在复杂环境中显著提升样本效率与收敛稳定性,尤其适用于稀疏奖励或长时依赖场景,表明 LLM 可承担高层探索控制器的角色。
$A^3$-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
Authors: Haoyu Wang, Xiang Ren.
Affiliation: University of Southern California.
A³-Bench 针对科学推理中的“记忆驱动”能力提出新基准,强调锚点(Anchor)与吸引子(Attractor)概念在跨步骤推理中的作用。基准要求模型在多轮推理中正确激活并维持关键知识结构。结果显示,现有 LLM 在长期记忆一致性与结构化知识调用方面仍存在明显短板。
Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning
Authors: Yuxin Chen, Zhiyuan Liu.
Affiliation: Tsinghua University.
本文提出一种多 Agent 协作的测试时强化学习框架,在推理阶段通过 Agent 间交互与反馈动态改进决策策略。方法无需额外训练数据,即可在测试时持续优化推理路径,在数学与逻辑推理任务上显著优于单 Agent 与静态推理方法,展示了协作式 Test-Time RL 的潜力。
FlowAct-R1: Towards Interactive Humanoid Video Generation
Authors: Ziyi Wu, Xiaolong Wang.
Affiliation: University of California, San Diego.
FlowAct-R1 探索可交互的人形视频生成,将动作流(Action Flow)建模为可控中间表示,使用户能够在生成过程中实时调整动作与行为。该方法在保持时序一致性的同时提升了动作可控性,为人形动画生成、机器人仿真与虚拟交互提供了新的技术路径。
VIBE: Visual Instruction Based Editor
Authors: Rui Huang, Jianwei Yang.
Affiliation: Peking University.
VIBE 提出一种基于视觉指令的通用图像编辑框架,允许用户通过自然语言与示例图像联合指定编辑意图。模型能够理解复杂、多步的视觉修改需求,并在保持语义一致性的同时完成精细编辑。实验表明,VIBE 在可控性与泛化性上优于现有文本驱动图像编辑方法。
MemGovern: Enhancing Code Agents through Learning from Governed Human Experiences
Authors: Qihao Wang, Qihao Wang.
Affiliation: Unknown.
提出 MemGovern:通过“带治理约束的人类经验”来训练/改进代码智能体。核心思路是把人类在真实开发中如何遵循规范、做取舍与复盘的轨迹结构化为可学习信号,使智能体在规划、记忆检索与行动选择时更符合工程治理要求,从而提升可控性与可靠性。
Motion Attribution for Video Generation
Authors: Sihun Cha, Sihun Cha.
Affiliation: Unknown.
研究视频生成中的“运动归因”:将生成结果中的运动变化分解并追踪到可解释的因素(如条件、模块或时序决策),从而提供更可解释的评估与诊断手段。该方法有助于发现运动伪影来源,并支持更精细的运动控制与编辑。
Solar Open Technical Report
Authors: Sung-Han Kim, Sung-Han Kim.
Affiliation: Unknown.
Solar Open 技术报告系统梳理模型训练与后训练流程:数据构建与合成策略、双语/推理导向的课程式训练、以及结合 SFT 与 RL 的能力对齐方案,并给出多维度评测与工程实践要点,为复现实用级开源大模型训练提供参考。
Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
Authors: Duygu Ceylan, Duygu Ceylan.
Affiliation: Unknown.
提出面向“视频深度研究”的基准:模型不仅要看视频提取跨帧线索,还要在开放网络上检索证据并进行多跳推理验证答案。数据强调可核验的证据链与工具使用能力,用于系统评估具备代理式工作流的视频理解与搜索推理能力。
BabyVision: Visual Reasoning Beyond Language
Authors: Yejin Ha, George A. Alvarez.
Affiliation: Unknown.
BabyVision 聚焦“语言之前”的基础视觉能力评测:细粒度辨别、视觉追踪、空间感知与模式识别等,设计灵感来自婴幼儿早期视觉发展。通过降低语言负担、对照人类发展阶段表现,揭示多模态模型在看似简单但关键的视觉推理技能上的缺口。
PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning
Authors: Siddharth Singh, Siddharth Singh.
Affiliation: Unknown.
PaCoRe 研究如何通过“并行+协同”的推理方式扩展测试时计算:并行生成多条推理轨迹,再通过协调/压缩机制汇总关键信息,迭代提升答案质量。作者强调需要通过结果导向的强化学习学习“综合能力”,从而在固定上下文限制下实现更强的推理与泛化。
Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
Authors: Yuxiang Ji, Yuxiang Ji.
Affiliation: Unknown.
针对图像地理定位,引入“用地图思考”的代理循环:模型在地图交互中提出假设、探索候选路径并逐步收敛。方法采用两阶段优化:先用强化学习增强代理能力与采样效率,再用并行测试时扩展探索多条候选路线;同时发布 MAPBench 以评测更贴近真实场景的定位能力。
MMFormalizer: Multimodal Autoformalization in the Wild
Authors: Jing Xiong, Jing Xiong.
Affiliation: Unknown.
MMFormalizer 将“自动形式化”扩展到多模态场景:不仅把自然语言数学转为形式化陈述,还需要从图像/物理情境中推断隐含量纲与约束。方法通过递归式的视觉实体落地与公理组合构建可编译命题,并提出 PhyX-AF 基准评测多模态形式化与物理推理的准确性与可验证性。