📚 Weekly Papers

|Archive
2025-09-28
2025-09-22 ~ 2025-09-28
SIM-CoT: Supervised Implicit Chain-of-Thought
Authors: Xilin Wei, Yuhang Zang
Affiliation: Fudan University, Shanghai AI Laboratory
提出针对隐式CoT“潜表不稳”的SIM-CoT:在训练中用辅助解码器为每个隐式token引入步骤级监督,保持语义多样与可解释;推理时移除辅助头,无额外开销;在多模型上显著提升准确与稳定。
Reinforcement Learning on Pre-Training Data
Authors: Siheng Li, Bo Zhou
Affiliation: LLM Department, Tencent, The Chinese University of Hong Kong
提出在预训练数据上做强化学习的RLPT:以“下一段推理”目标从未标注语料自动构造奖励,摆脱人工标注瓶颈;在通用与数学基准上持续获得提升,并展示良好随算力扩展的尺度律,同时增强RLVR基础。
LIMI: Less is More for Agency
Authors: Yang Xiao, Pengfei Liu
Affiliation: PolyU, GAIR
主张“少即是多”的能动智能培养范式:用精心策划的高质量示范而非海量数据训练代理。仅用78个示范,LIMI在AgencyBench达73.5%,显著超越多模型;提出“能动效率原则”,强调理解本质胜于扩充样本。
Qwen3-Omni Technical Report
Authors: Qwen Team, Qwen Team
Affiliation: Qwen Team
发布统一多模态模型Qwen3-Omni:Thinker-Talker MoE架构,文本/图像/音频/视频无退化并强化跨模态“思考”;覆盖多语言,语音流式端到端首包理论延迟234ms;开源多款30B变体与音频字幕器。
Embodied AI: From LLMs to World Models
Authors: Tongtong Feng, Wenwu Zhu
Affiliation: Tsinghua University
综述具身智能从LLM到世界模型的进展,系统梳理感知-认知-交互与硬件环节;提出联合MLLM-WM架构以结合语义推理与物理一致性,回顾应用与挑战,并给出未来研究方向。
Language Models that Think, Chat Better
Authors: Adithya Bhaskar, Danqi Chen.
Affiliation: Princeton Language and Intelligence, Princeton University.
提出RLMT框架:用奖励模型在开放域对“思考+回答”进行强化,兼容DPO/PPO/GRPO;相较仅限可验证域的RLVR,显著提升WildBench等通用对话与创作能力,并可零起点强化基座模型。
Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning
Authors: Pulkit Verma, Julie A. Shah.
Affiliation: MIT CSAIL, Massachusetts Institute of Technology.
提出PDDL-INSTRUCT:以逻辑式CoT指令微调,使模型显式检验前置条件、状态转移与不变量,生成并自证计划;在标准规划基准最高达94%有效率,缩窄神经与符号规划的鸿沟。
AToken: A Unified Tokenizer for Vision
Authors: Jiasen Lu, Jiasen Lu.
Affiliation: Apple.
提出统一视觉Tokenizer——AToken:以纯Transformer与4D旋转位置编码,将图像/视频/3D映射至共享4D潜空间,兼顾重建保真与语义理解,支持连续/离散token,并在多项生成与理解任务中具竞争力。
ARE: scaling up agent environments and evaluations
Authors: Meta Superintelligence Labs, Meta Superintelligence Labs.
Affiliation: Meta Superintelligence Labs.
介绍ARE平台与Gaia2基准:支持可扩展环境构建与异步评测,能接入真实应用与MCP;实验显示模型能力与效率存在权衡,预算曲线易平台化,强调新型架构与自适应算力以推进代理研究。