2026-01-05 - Weekly Papers

Authors: Chen Hu, Yibo Zhu.

Affiliation: StepFun.

该报告详细介绍了阶跃星辰（StepFun）开发的 Step-DeepResearch 系统。该系统通过引入多步规划、自我修正以及深度检索机制，显著提升了大型语言模型在处理复杂、长程研究任务时的表现。Step-DeepResearch 在多个极具挑战性的研究性基准测试中展现了卓越的性能，能够自动执行从文献调研到撰写深度报告的完整闭环科研流程。

Latent Implicit Visual Reasoning

Authors: Kelvin Li, Roei Herzig.

Affiliation: UC Berkeley.

本文提出了一种“潜在隐式视觉推理”框架，旨在解决现有视觉语言模型在复杂几何与空间逻辑推理上的局限。不同于传统的显式思维链，该方法在模型的潜在特征空间内进行多步隐式演化，从而捕捉更细致的视觉关系。实验表明，该机制显著提升了模型在视觉推理基准（如Blink和MMBench）上的准确率，尤其在需要精密空间分析的任务中表现突出。

Attention Is Not What You Need

Authors: Zhang Chong, Zhang Chong.

Affiliation: Independent Researcher.

这篇论文挑战了当前以注意力机制为核心的架构范式，提出了一种基于代数几何视角的新型序列建模方法。作者通过数学论证指出，注意力机制在处理极长序列时存在效率瓶颈与归纳偏差问题。文中提出了一种替代性的算子结构，旨在不依赖传统注意力矩阵的前提下，实现更高效的信息聚合与演化，为下一代非Transformer架构提供了理论探索。

MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

Authors: Hanzhang Zhou, Steven Hoi.

Affiliation: Alibaba Group.

本报告介绍了由阿里巴巴开发的 MAI-UI 智能体系统。该系统专注于现实世界的图形用户界面（GUI）操作，通过大规模真实场景数据训练，解决了智能体在跨平台、跨应用操作时的鲁棒性问题。MAI-UI 引入了环境感知与长期记忆模块，使其能够像人类一样理解并执行复杂的软件指令，在多项移动端与桌面端 GUI 自动化评测中刷新了纪录。

Training AI Co-Scientists Using Rubric Rewards

Authors: Shashwat Goel, Chenxi Whitehouse.

Affiliation: Meta AI.

本文探讨了如何通过“量表奖励”（Rubric Rewards）来训练人工智能科研助手。作者认为传统的单一目标奖励难以衡量科研的创造性与严谨性，因此设计了一套细粒度的评估准则作为强化学习的反馈信号。通过这种方法训练的 AI Co-Scientists 在实验设计、假设生成及论文初稿撰写方面表现出更高的专业性和逻辑连贯性，为 AI 赋能科学发现提供了新路径。

End-to-End Test-Time Training for Long Context

Authors: Arnuv Tandon, Yu Sun.

Affiliation: Stanford University.

本文提出了一种端到端的测试时训练（TTT）方法，专门用于增强模型处理超长上下文的能力。该方法允许模型在推理阶段针对当前输入序列动态更新其权重，从而有效缓解长序列中的信息遗忘与注意力衰减问题。相比于固定权重的模型，该方法在数万甚至数十万字的长文档分析任务中，能够以极低的额外计算开销换取显著的理解精度提升。

mHC: Manifold-Constrained Hyper-Connections

Authors: Zhenda Xie, Zhenda Xie

Affiliation: DeepSeek

论文提出了流形约束超连接（mHC），这是一种即插即用的模块，用于优化Transformer架构。mHC通过将隐藏状态约束在流形空间内，改善了梯度的传播和模型的训练稳定性。实验表明，mHC在多种语言模型基准测试中提升了性能，特别是在深层网络训练中表现出更好的收敛性和鲁棒性，为构建更深、更强大的大模型提供了新的思路。

Evaluating Parameter Efficient Methods for RLVR

Authors: Qingyu Yin, Jinjin Gu

Affiliation: Zhejiang University

本文评估了参数高效微调（PEFT）方法（如LoRA）在验证奖励强化学习（RLVR）中的表现。研究发现，虽然PEFT方法在参数量上远小于全量微调，但在特定条件下（如适当的秩和学习率），它们能够达到与全量微调相当的性能。这项工作为在计算资源受限的情况下进行高效的强化学习对齐提供了实证依据和指导。

Recursive Language Models

Authors: Alex L. Zhang, Omar Khattab

Affiliation: MIT

论文介绍了递归语言模型（RLMs），这是一种能够通过递归调用自身来生成中间推理步骤（“思想”）的架构。与传统的链式思维（CoT）不同，RLM允许模型在生成最终答案之前，动态地展开任意深度的推理树。这种方法显著增强了模型解决复杂问题的能力，使其能够处理需要多步规划和回溯的任务。

Monitoring Monitorability

Authors: Melody Y. Guan, Bowen Baker

Affiliation: OpenAI

OpenAI 提出了“可监控性”（Monitorability）这一新指标，用于衡量人类或自动化系统检测AI模型错误行为的难易程度。研究表明，利用思维链（CoT）可以显著提高模型的可监控性，且不会因强化学习优化而明显降低。论文还提出了一套评估套件，发现较长的CoT通常更易于监控，并建议在提升模型能力的同时，应同步提升监控机制的能力以确保安全。

Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

Authors: Rachit Bansal, Aston Zhang

Affiliation: Harvard University

本文挑战了仅仅依靠长上下文窗口来处理海量信息的做法，提出了针对长上下文大语言模型的测试时训练（Test-Time Training, TTT）方法。作者认为，通过在推理阶段利用上下文数据对模型进行瞬时参数更新，可以比单纯的上下文学习（In-Context Learning）更有效地压缩和利用信息。实验显示，TTT在长文档理解和检索任务上取得了显著的性能提升。

Meta-RL Induces Exploration in Language Agents

Authors: Yulun Jiang, Maria Brbic

Affiliation: EPFL

论文探讨了如何利用元强化学习（Meta-RL）来激发语言智能体的探索能力。传统的语言模型往往倾向于利用已知知识而非探索新策略，导致在复杂环境中陷入局部最优。作者提出的方法通过Meta-RL训练，使智能体学会了主动探索环境和收集信息，从而在需要长期规划和适应新环境的任务中表现出更强的泛化能力和解决问题的效率。

Epistemological Fault Lines Between Human and Artificial Intelligence

Authors: Walter Quattrociocchi, Matjaž Perc

Affiliation: Sapienza University of Rome

本文指出，尽管大语言模型（LLM）常被视为人工智能，但其认识论特征与人类认知存在根本差异。作者认为，LLM作为随机模式补全系统，其输出的表面一致性掩盖了深层的结构性错配。文章识别了人机之间在接地（Grounding）、解析、经验、动机等方面的七个“认识论断层线”，并提出了“认识论幻觉”（Epistemia）概念，即语言的似然性取代了真正的认识论评估，导致一种无需判断劳动的“知道感”。研究呼吁在评估和治理中正视这些差异，以避免过度依赖AI的表面合理性。

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Authors: Bingxiang He, Zhiyuan Liu

Affiliation: Tsinghua University

本文提出了JustRL，一种简单高效的强化学习（RL）方法，旨在提升1.5B参数规模LLM的推理能力。针对当前RL训练流程复杂（如多阶段训练、动态超参）的问题，JustRL仅通过单一阶段训练和固定超参，即在DeepScaleR-1.5B-Preview等模型上取得了SOTA性能（在9个数学基准上平均准确率大幅提升）。研究表明，RL能通过组合现有技能赋予模型真正的新能力，而非仅是重新加权现有策略。定性分析显示RL根本性地改变了模型的推理行为，为通过RL激励模型解决复杂问题提供了新思路。

Toward Training Superintelligent Software Agents through Self-Play SWE-RL

Authors: Yuxiang Wei, Lingming Zhang

Affiliation: University of Illinois Urbana-Champaign

本文介绍了Self-play SWE-RL (SSR)，一种训练超智能软件代理的框架。针对现有软件代理严重依赖人类数据（如GitHub issue）的问题，SSR仅需访问沙盒化源码库，通过自博弈（Self-play）让代理自主注入并修复日益复杂的Bug（由测试补丁形式化描述）。在SWE-bench Verified等基准上，SSR实现了显著的自我提升（+10.4%），并持续优于人类数据基线。结果表明，代理可从真实软件库中自主积累经验，无需人类标注即可迈向超越人类的系统构建与问题解决能力。

An Empirical Study of Agent Developer Practices in AI Agent Frameworks

Authors: Yanlin Wang, Zibin Zheng

Affiliation: Sun Yat-sen University

本文对AI代理框架中的开发者实践进行了实证研究。通过挖掘软件仓库和分析开发者讨论，作者调查了主流代理框架（如LangChain、AutoGPT）中的开发模式与挑战。研究发现，开发者在提示工程、工具集成及记忆管理等方面面临显著困难，且现有的开发实践中存在安全性和隐私保护方面的“反模式”（Anti-patterns）。文章总结了当前代理开发的痛点，并为改进框架设计、提升开发者效率及安全性提供了实证依据和具体建议。

Sophia: A Persistent Agent Framework of Artificial Life

Authors: Mingyang Sun, Weinan Zhang

Affiliation: Westlake University

本文提出了Sophia，一种“持久代理”（Persistent Agent）框架，旨在赋予人工生命体持续的自我进化能力。针对现有代理多为静态、反应式且依赖人工设计的问题，Sophia引入了连续的自我提升循环，包含过程监督的思维搜索、叙事记忆、用户与自我建模以及混合奖励系统。实验表明，Sophia能自主发起并执行多种内在任务，在重复操作中减少了80%的推理步骤，并通过长期交互展现出更强的一致性与适应性，为构建具有长期自主性的人工生命迈出了重要一步。

SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Authors: Wentao Guo, Tri Dao

Affiliation: Princeton University

本文提出了SonicMoE，一种针对混合专家模型（MoE）的加速与显存优化方案。随着MoE模型向高细粒度（Fine-grained）和高稀疏性发展，硬件效率面临挑战。SonicMoE通过设计内存高效的前向/后向算法，最小化后向传播的激活缓存（减少45%显存占用），并利用GPU内核重叠IO与计算。此外，文章提出了“Tile-aware Token Rounding”算法，解决了稀疏MoE中的计算浪费问题。在Hopper GPU上，SonicMoE相比ScatterMoE实现了1.86倍的吞吐量提升，有效支持了大规模细粒度MoE的高效训练。

📚 Weekly Papers