2025-12-15 - Weekly Papers

Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

Authors: Tong Wu, Zilong Zheng

Affiliation: Beijing Institute for General Artificial Intelligence (BIGAI)

本文提出了Native Parallel Reasoner (NPR)，一种无需教师模型的框架，使大型语言模型（LLM）能够通过自蒸馏强化学习自我进化出并行推理能力。NPR通过生成多个推理路径并利用自我评估来优化模型，从而在解决复杂问题时从顺序模拟转变为真正的并行认知，显著提高了推理效率和准确性。

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance

Authors: Ruihang Chu, Yujiu Yang

Affiliation: The Chinese University of Hong Kong

本文介绍了Wan-Move，这是一个简单且可扩展的框架，用于在视频生成模型中实现运动控制。通过利用潜在轨迹引导（Latent Trajectory Guidance），该方法允许用户通过指定轨迹来精确控制视频中对象的运动，克服了现有方法在控制粒度和可扩展性方面的限制，实现了高质量的运动可控视频生成。

Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform

Authors: Yuning Gong, Zhihang Zhong

Affiliation: Visionary Laboratory

Visionary是一个基于WebGPU驱动的3D高斯泼溅（Gaussian Splatting）平台，旨在作为世界模型的载体。该平台支持在浏览器中直接进行高效的模型训练和渲染，降低了通过3D环境构建和部署世界模型的门槛，为交互式生成和沉浸式体验提供了强大的基础设施支持。

StereoWorld: Geometry-Aware Monocular-to-Stereo Video Generation

Authors: Ke Xing, Yunchao Wei

Affiliation: Beijing Jiaotong University

针对XR设备对高质量立体视频的需求，本文提出了StereoWorld，一种几何感知的单目到立体视频生成框架。该方法解决了单目视频转立体视频过程中常见的深度不一致和伪影问题，通过引入几何约束和视差一致性模块，生成具有精确深度感和视觉舒适度的立体视频内容。

EgoX: Egocentric Video Generation from a Single Exocentric Video

Authors: Taewoong Kang, Jaegul Choo

Affiliation: KAIST

EgoX是一个新颖的框架，用于从单个外以中心（第三人称）视频生成以自我中心（第一人称）的视频。该方法利用大规模视频扩散模型的预训练知识，通过轻量级的LoRA适配和统一的条件策略，解决了视角转换中的剧烈变化和视野不重叠挑战，成功合成了几何一致且内容保真的第一人称视频。

Towards a Science of Scaling Agent Systems

Authors: Yubin Kim, Xin Liu

Affiliation: University of Washington

本文提出了Agent系统的扩展定律，系统地研究了测试时计算量（test-time compute）、工具使用和基础模型能力对Agent性能的影响。研究发现，通过增加采样数量或引入搜索机制，Agent的性能呈指数级增长，但这种增长受限于基础模型的固有能力。作者还指出了当前Agent扩展面临的边际效益递减问题，并为未来高效扩展Agent系统提供了实证依据和设计建议。

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

Authors: Charlie Zhang, Xiang Yue

Affiliation: Carnegie Mellon University

本文深入探讨了预训练、Mid-Training（中间训练）和强化学习（RL）在构建推理大模型中的相互作用。研究发现，Mid-Training在“唤醒”模型推理能力方面起着关键作用，是后续RL有效性的基础；而RL虽然能进一步提升性能，但对数据质量和策略优化高度敏感。文章通过大量实验揭示了这三个阶段的最佳实践，为训练更强大的推理模型提供了指导。

Reasoning Models Ace the CFA Exams

Authors: Jaisal Patel, Xiao-Yang Liu

Affiliation: Rensselaer Polytechnic Institute

本文评估了当前顶尖的推理模型（如DeepSeek-V3、OpenAI o1）在特许金融分析师（CFA）考试中的表现。结果显示，这些模型能够以高分通过CFA一级和二级考试，甚至在某些科目上超过了人类考生的平均水平，但在涉及复杂案例分析的三级考试中仍面临挑战。研究表明，推理模型在金融领域的专业知识应用能力已达到很高水平，但仍有提升空间。

AI & Human Co-Improvement for Safer Co-Superintelligence

Authors: Jason Weston, Jakob Foerster

Affiliation: Meta FAIR

本文探讨了一种实现安全超智能的新路径：AI与人类的协同进化（Co-Improvement）。作者认为，单纯依靠对齐技术难以保证超智能系统的安全性，主张通过机制设计和多智能体博弈，让AI在与人类的交互中不断学习和适应人类价值观，同时提升人类对AI的理解和控制能力。文章提出了具体的框架和算法思路，旨在实现AI能力增长与安全性提升的正和博弈。

Beyond Data Filtering: Knowledge Localization for Capability Removal in LLMs

Authors: Igor Shilov, Cem Anil

Affiliation: Anthropic Fellows Program

本文介绍了选择性梯度掩码（SGTM）技术，旨在从大模型中移除危险知识（如CBRN武器信息）。与传统的数据过滤不同，SGTM在训练过程中通过梯度控制，将特定领域的知识定位到可移除的模型参数中。实验表明，SGTM在移除危险能力的同时，能更好地保留模型的通用能力，且比传统的遗忘学习方法更难被对抗性微调恢复，为降低AI双重用途风险提供了新思路。

Nanbeige4-3B Technical Report: Exploring the Frontier of Small Language Models

Authors: Chen Yang, Zongchao Chen

Affiliation: Nanbeige

介绍了Nanbeige4-3B，一个30亿参数的高性能小型语言模型。该模型通过23T高质量token预训练，并结合FG-WSD调度策略、双偏好蒸馏（DPD）及多阶段强化学习等技术，在数学、推理、编码及工具使用等任务上展现出卓越性能，超越了同等规模甚至更大的模型，拓展了小模型的性能边界。

The Adoption and Usage of AI Agents: Early Evidence from Perplexity

Authors: Jeremy Yang, Jerry Ma

Affiliation: Harvard Business School

本文基于Perplexity平台的去识别化数据，对AI Agent的早期采用和使用模式进行了实证分析。研究发现，相较于传统聊天机器人，AI Agent在处理复杂、多步骤任务时表现出更高的用户参与度和留存率。文章揭示了用户从信息检索向更深层任务委托的行为转变，为理解AI Agent的商业和社会影响提供了早期证据。

ProAgent: Harnessing On-Demand Sensory Contexts for Proactive LLM Agent Systems

Authors: Bufang Yang, Zhenyu Yan

Affiliation: The Chinese University of Hong Kong

提出了ProAgent，首个利用海量感知上下文和LLM推理能力的端到端主动代理系统。通过“按需分层感知”机制高效提取环境与用户状态，并结合“上下文感知主动推理器”精准预测用户需求。在AR眼镜平台上的评估表明，ProAgent在主动服务准确率和工具调用表现上显著优于现有基线，大幅提升了用户满意度。

Native and Compact Structured Latents for 3D Generation

Authors: Jianfeng Xiang, Jiaolong Yang

Affiliation: Microsoft

针对现有3D生成模型在复杂拓扑和细节表现上的局限，提出了一种基于原生3D数据的结构化潜在表示方法。核心是全素体（O-Voxel）稀疏结构，能同时编码几何与外观。结合稀疏压缩VAE和40亿参数的流匹配模型，该方法实现了高质量、高效率的3D资产生成，在几何完整性和纹理质量上均超越了现有最先进模型。

WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Authors: Wenqiang Sun, Chunchao Guo

Affiliation: Tencent

推出了WorldPlay，一种支持实时交互的流式视频扩散世界模型。该模型通过双动作表示、重构上下文记忆（Reconstituted Context Memory）以及上下文强制蒸馏（Context Forcing）等创新技术，有效解决了视频生成中速度与长程几何一致性的权衡问题，实现了720p分辨率下24FPS的实时、一致且可控的世界模拟。

MMGR: Multi-Modal Generative Reasoning

Authors: Zefan Cai, Haozhe Zhao

Affiliation: University of Wisconsin - Madison

提出了MMGR评测基准，旨在系统评估多模态生成模型的物理、逻辑、空间（2D/3D）及时间推理能力。涵盖抽象推理、具身导航和物理常识三个领域。评估显示，现有主流视频和图像模型在抽象推理和长程空间规划上表现欠佳，倾向于视觉合理性而非因果正确性。MMGR为构建具备真正推理能力的生成式世界模型提供了统一的诊断工具。

📚 Weekly Papers