2025-09-28 - Weekly Papers

Authors: Xilin Wei, Yuhang Zang

Affiliation: Fudan University, Shanghai AI Laboratory

提出针对隐式CoT“潜表不稳”的SIM-CoT：在训练中用辅助解码器为每个隐式token引入步骤级监督，保持语义多样与可解释；推理时移除辅助头，无额外开销；在多模型上显著提升准确与稳定。

Authors: Siheng Li, Bo Zhou

Affiliation: LLM Department, Tencent, The Chinese University of Hong Kong

提出在预训练数据上做强化学习的RLPT：以“下一段推理”目标从未标注语料自动构造奖励，摆脱人工标注瓶颈；在通用与数学基准上持续获得提升，并展示良好随算力扩展的尺度律，同时增强RLVR基础。

Authors: Yang Xiao, Pengfei Liu

Affiliation: PolyU, GAIR

主张“少即是多”的能动智能培养范式：用精心策划的高质量示范而非海量数据训练代理。仅用78个示范，LIMI在AgencyBench达73.5%，显著超越多模型；提出“能动效率原则”，强调理解本质胜于扩充样本。

Authors: Qwen Team, Qwen Team

Affiliation: Qwen Team

发布统一多模态模型Qwen3-Omni：Thinker-Talker MoE架构，文本/图像/音频/视频无退化并强化跨模态“思考”；覆盖多语言，语音流式端到端首包理论延迟234ms；开源多款30B变体与音频字幕器。

Authors: Tongtong Feng, Wenwu Zhu

Affiliation: Tsinghua University

综述具身智能从LLM到世界模型的进展，系统梳理感知-认知-交互与硬件环节；提出联合MLLM-WM架构以结合语义推理与物理一致性，回顾应用与挑战，并给出未来研究方向。

Authors: Adithya Bhaskar, Danqi Chen.

Affiliation: Princeton Language and Intelligence, Princeton University.

提出RLMT框架：用奖励模型在开放域对“思考+回答”进行强化，兼容DPO/PPO/GRPO；相较仅限可验证域的RLVR，显著提升WildBench等通用对话与创作能力，并可零起点强化基座模型。

Authors: Pulkit Verma, Julie A. Shah.

Affiliation: MIT CSAIL, Massachusetts Institute of Technology.

提出PDDL-INSTRUCT：以逻辑式CoT指令微调，使模型显式检验前置条件、状态转移与不变量，生成并自证计划；在标准规划基准最高达94%有效率，缩窄神经与符号规划的鸿沟。

Authors: Jiasen Lu, Jiasen Lu.

Affiliation: Apple.

提出统一视觉Tokenizer——AToken：以纯Transformer与4D旋转位置编码，将图像/视频/3D映射至共享4D潜空间，兼顾重建保真与语义理解，支持连续/离散token，并在多项生成与理解任务中具竞争力。

Authors: Meta Superintelligence Labs, Meta Superintelligence Labs.

Affiliation: Meta Superintelligence Labs.

介绍ARE平台与Gaia2基准：支持可扩展环境构建与异步评测，能接入真实应用与MCP；实验显示模型能力与效率存在权衡，预算曲线易平台化，强调新型架构与自适应算力以推进代理研究。

📚 Weekly Papers