2025-12-29 - Weekly Papers

Evaluating AI's ability to perform scientific research tasks

Authors: OpenAI.

Affiliation: OpenAI.

介绍了FrontierScience，这是一个旨在评估AI在物理、化学和生物领域专家级科学推理能力的新基准。该基准包含Olympiad（奥林匹克竞赛风格的短期推理）和Research（由博士设计的开放式研究任务）两个赛道。评估显示，GPT-5.2在Olympiad和Research赛道上均表现最佳，但仍有很大的提升空间，特别是在开放式研究思维方面。

CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Authors: Jie He, Yizhe Zhang.

Affiliation: University of Edinburgh.

提出了CLaRa，一种通过连续潜在推理连接检索和生成的框架。该方法旨在解决RAG（检索增强生成）系统中检索文档与生成答案之间的断层问题，通过在潜在空间进行推理来增强模型整合信息和生成准确回复的能力。

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

Authors: Aileen Cheng, Dipanjan Das.

Affiliation: Google DeepMind.

推出了FACTS排行榜，这是一个综合性的基准测试，用于评估大型语言模型的事实准确性。该基准涵盖了多种任务和领域，旨在提供对模型在生成事实性内容方面能力的标准化评估，帮助识别模型的幻觉问题并推动更可靠模型的发展。

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Authors: Beichen Zhang, Jiaqi Wang.

Affiliation: Shanghai AI Laboratory.

针对抽象推理语料库（ARC）任务，提出了一种结合视觉感知和文本推理的方法。该研究通过视觉-语言协同（Vision-Language Synergy），利用视觉模型提取特征，并结合语言模型的推理能力，显著提高了在ARC任务上的表现，证明了多模态方法在解决复杂抽象推理问题上的有效性。

Sharp Monocular View Synthesis in Less Than a Second

Authors: Lars Mescheder, Vladlen Koltun.

Affiliation: Apple.

提出了一种新的单目视图合成方法，能够在不到一秒的时间内生成清晰的新视图。该方法通过优化的网络架构和推理过程，在保持高质量图像生成的同时大幅降低了计算成本，适用于实时应用和移动设备上的3D场景重建与漫游。

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

Authors: Justin W. Lin, Daniel E. Ho.

Affiliation: Stanford University.

本文对比了AI代理与人类网络安全专家在真实世界渗透测试中的表现。研究发现，虽然AI代理在某些自动化任务上表现出色，但在处理复杂、需要创造性思维和深层上下文理解的攻击场景时，仍不及人类专家。文章强调了AI作为辅助工具的潜力，但也指出了其在完全自主网络攻击方面的局限性。

Stronger Normalization-Free Transformers

Authors: Mingzhi Chen, Zhuang Liu.

Affiliation: Princeton University.

本文提出了更强的无归一化Transformer模型。通过改进初始化策略和训练稳定性技术，作者成功训练了深层的Transformer模型而无需传统的归一化层（如LayerNorm）。该方法在多个基准测试中展现了与标准Transformer相当甚至更好的性能，同时简化了架构并提高了训练效率。

SemanticGen: Video Generation in Semantic Space

Authors: Jianhong Bai, Kun Gai

Affiliation: Zhejiang University

本文提出了 SemanticGen，一种在语义空间进行视频生成的生成式框架。该方法基于视频内容存在冗余性的洞察，将生成过程解耦为两个阶段：首先在一个紧凑的高层语义空间中生成定义视频全局结构（如布局和运动模式）的语义特征，以此作为“剧本”；随后以此为条件，在 VAE 潜在空间中生成高频细节。这种“先规划后细化”的范式显著提高了模型收敛速度和长视频生成的时间一致性，实验表明其在生成质量和效率上优于直接在潜在空间建模的现有方法。

Step-DeepResearch Technical Report

Authors: Chen Hu, Yibo Zhu

Affiliation: StepFun

本报告介绍了 Step-DeepResearch，这是一个针对复杂开放式问题设计的迭代研究型智能体系统。该系统模拟人类的研究过程，能够自主进行在线搜索、信息分析和多步推理。核心技术包括用于探索用户潜在搜索意图的 Expectation-Maximization (EM) 模型，以及用于在每一步选择最佳行动路径的蒙特卡洛树搜索 (MCTS) 算法。在 FreshBench 等基准测试上的评估显示，Step-DeepResearch 能够通过持续获取新信息来回答高难度问题，性能显著超越现有模型。

NVIDIA Nemotron 3: Efficient and Open Intelligence

Authors: Aaron Blakeman, Zijie Yan

Affiliation: NVIDIA

本技术报告详细介绍了 NVIDIA Nemotron 3 系列大语言模型。该系列模型旨在提供高效、高性能且开放的智能基础，涵盖了从基础模型到指令微调模型的多种规格。报告阐述了其在架构优化、大规模预训练数据策略及对齐技术上的改进，重点强调了模型在推理效率、长上下文处理及代码与推理任务上的卓越表现。Nemotron 3 的发布为开源社区提供了具有竞争力的工业级模型选择，推动了高效智能的普及。

Detailed balance in large language model-driven agents

Authors: Zhuo-Yang Song, Hua Xing Zhu

Affiliation: Peking University

本文从统计物理学的视角研究大语言模型（LLM）驱动的智能体，发现其生成的微观状态转换在宏观上满足“细致平衡”（detailed balance）原理。这一发现表明，LLM 智能体的行为并非简单的规则学习或随机游走，而是由一个隐含的、类似于物理势能函数的全局机制所引导。通过最小作用量原理，作者构建了一个理论框架来量化和预测智能体的动力学行为，指出智能体实际上是在通过“势能”导向来优化其生成路径，为理解复杂 AI 系统的涌现行为提供了新的物理学解释。

Budget-Aware Tool-Use Enables Effective Agent Scaling

Authors: Tengxiao Liu, Chen-Yu Lee

Affiliation: University of California, Santa Barbara

本文针对工具增强型智能体（Tool-augmented Agents）的扩展问题，指出单纯增加工具调用预算并不能有效提升性能，因为现有智能体缺乏“预算意识”。作者提出了 Budget Tracker 插件，赋予智能体实时感知剩余预算的能力，并开发了 BATS（Budget Aware Test-time Scaling）框架。该框架使智能体能根据剩余资源动态调整策略，在“深挖”现有线索与“转向”新路径之间做决策。实验表明，预算感知设计能显著改善扩展曲线，在同等成本下获得更高的任务成功率。

DeepCode: Open Agentic Coding

Authors: Zongwei Li, Chao Huang

Affiliation: University of Hong Kong

DeepCode 是一个旨在解决复杂软件工程任务的开源编码智能体框架。它模拟了人类开发者的迭代工作流，包含需求解析、代码规划、逐步实现及自我调试等核心模块，并集成了基于代码库的检索增强生成（RAG）技术以处理复杂的项目级依赖。DeepCode 不仅在 HumanEval 等标准基准上表现优异，更在处理现实世界复杂代码库修改任务时展现出强大的鲁棒性，甚至在某些指标上超越了闭源的高级模型，为自动化编程领域提供了透明且可扩展的解决方案。

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Authors: Weichen Fan, Ziwei Liu

Affiliation: Nanyang Technological University

本文提出了“棱镜假设”（Prism Hypothesis），旨在解决视觉领域中语义表示（如CLIP）与像素表示（如VAE）分离的问题。作者通过统一自编码器（Unified Autoencoding）将两者协调起来，使模型既能具备强大的语义理解能力，又能进行高质量的像素级生成。这一统一视角为视觉理解和生成任务提供了更高效的通用表示基础。

MemEvolve: Meta-Evolution of Agent Memory Systems

Authors: Guibin Zhang, Shuicheng Yan

Affiliation: National University of Singapore

本文提出了MemEvolve框架，专注于智能体（Agent）记忆系统的元进化。与传统固定结构的记忆模块不同，MemEvolve允许智能体在任务执行过程中自主优化其记忆架构和存储策略。通过这种元层面的进化，智能体能够更有效地积累经验并适应复杂环境，显著提升了长期任务中的表现和泛化能力。

Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

Authors: Wanghan Xu, Lei Bai

Affiliation: Shanghai AI Laboratory

本文定义了“科学通用智能”（Scientific General Intelligence, SGI），并推出了SGI-Bench基准测试。该研究通过模拟真实的科学家工作流（包括深度文献调研、创意生成、实验设计与推理等环节），全面评估大语言模型在科学发现全流程中的能力。研究发现现有模型在执行复杂科学推理时仍存在显著局限，并指出了通往AI科学家的关键路径。

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Authors: Xiaopeng Lin, Kai Chen

Affiliation: Shanghai AI Laboratory

本文提出了PhysBrain，旨在利用人类自我中心（Egocentric）视频数据来弥合视觉语言模型（VLM）与物理世界智能之间的鸿沟。通过在富含物理交互的自我中心数据上进行训练，PhysBrain赋予了模型更强的物理常识s和规划能力，使其能够更好地理解和执行具身智能任务，如机器人操作和导航。

Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Authors: Jiaqi Tang, Qifeng Chen

Affiliation: The Hong Kong University of Science and Technology

本文针对视觉模型在低质量图像上表现下降的问题，提出了Robust-R1模型。该方法引入了“退化感知推理”（Degradation-Aware Reasoning）机制，使模型能够主动识别图像中的噪声、模糊等退化因素，并调整推理策略。实验表明，Robust-R1在多种图像退化场景下均保持了鲁棒的视觉理解和问答能力。

DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

Authors: Hao Liang, Wentao Zhang

Affiliation: Peking University

针对以数据为中心的AI开发需求，本文发布了DataFlow框架。这是一个由大语言模型驱动的系统，旨在自动化处理复杂的数据准备和工作流构建任务。DataFlow通过自然语言接口理解用户需求，自主规划并执行数据清洗、标注和增强等操作，大幅降低了高质量数据构建的门槛和人力成本。

📚 Weekly Papers