针对现有大模型代理在长期复杂交互中记忆效率低的问题,论文提出了GAM(General Agentic Memory)框架。该框架借鉴即时编译(JIT)原则,通过轻量级的“记忆器”和“研究器”模块,结合强化学习(RL)来动态管理和利用记忆。实验表明,GAM在处理长上下文和跨任务记忆检索方面显著优于现有方法,大幅提升了代理的任务完成率和记忆利用效率。
针对大语言模型训练中优化器(如Adam、Muon)存在的正交化精度脆弱和对异常值敏感的问题,论文提出了ROOT(Robust Orthogonalized Optimizer)。ROOT通过维度鲁棒的正交化方案(自适应牛顿迭代)和双重鲁棒机制(处理异常值噪声),显著增强了训练稳定性。实验显示,ROOT在非凸优化和含噪场景下,收敛速度和最终性能均优于现有优化器,为大规模模型训练提供了更可靠的方案。
现有的端到端像素级扩散模型通常在单个DiT中同时建模高频细节和低频语义,导致训练和推理效率低下。本文提出了DeCo(Frequency-Decoupled Pixel Diffusion)框架,通过频率解耦策略,利用一个轻量级像素解码器专门生成高频细节,而让DiT专注于低频语义建模。这种设计在保持端到端生成优势的同时,大幅降低了计算开销,在ImageNet上实现了SOTA的FID分数(1.62),性能接近潜在扩散模型(LDM)。
现有代理学习研究多局限于单一领域的自我进化,缺乏对跨环境泛化能力的评估。本文提出了AutoEnv框架,通过将环境视为可分解的分布(转换、观察、奖励),自动化生成低成本、多样化的异构环境。基于此构建的AutoEnv-36数据集包含36个环境和358个层级,实验表明现有大模型代理在此基准上仅能获得12-49%的归一化奖励,揭示了当前代理在跨环境学习和适应方面的巨大挑战。
本文提出了 GigaEvo,一个结合大语言模型(LLM)与进化算法的开源黑盒优化框架。GigaEvo 利用 LLM 作为进化算子(如交叉和变异),通过少样本学习和思维链(CoT)推理来通过文本描述处理优化任务。该框架在 bbob 等基准测试中表现出色,展示了 LLM 在数值优化领域的潜力,并为研究人员提供了灵活的实验平台。
本文介绍了 LatentMAS,一种新型的多智能体协作框架,允许智能体在潜在空间(Latent Space)而非仅通过自然语言进行交互。通过在潜在表示层面进行通信,LatentMAS 旨在提高协作效率并增强隐私保护。实验表明,该方法在多个协作任务中优于传统的基于文本的交互方式,为多智能体系统的通信机制提供了新的思路。
本文发布了 MERA(Multimodal Evaluation of Russian-language Architectures),这是一个针对俄语多模态大模型(MLLM)的综合评测基准。MERA 涵盖了多种视觉-语言任务,旨在填补俄语领域多模态模型评估的空白。该基准测试提供了标准化的数据集和评估指标,帮助研究人员衡量和改进模型在俄语语境下的多模态理解与生成能力。
本文推出了 Z-Image,一种基于单流扩散 Transformer(Single-Stream DiT)的高效图像生成基础模型。Z-Image 通过优化模型架构和训练策略,在保持高生成质量的同时显著降低了计算成本。实验结果显示,Z-Image 在多个图像生成指标上达到了最先进水平(SOTA),并展现了在资源受限环境下部署的潜力。
本文探讨了如何通过利用高级模型(如 GPT-4 或 DeepSeek R1)生成的推理轨迹(Reasoning Traces)来训练较小的语言模型。作者提出了一种从这些“教师”模型中蒸馏推理能力的方法,使较小的模型能够学习并内化复杂的思维链(Chain-of-Thought)过程。实验结果表明,这种方法能显著提升小模型在数学和逻辑推理任务上的表现,证明了高质量推理数据在模型训练中的关键作用。
本文提出了 "Be My Eyes" 框架,旨在通过多智能体协作(Multi-Agent Collaboration)将大语言模型(LLM)的能力扩展到新的模态(如视觉)。该框架不依赖于昂贵的多模态预训练,而是让 LLM 作为中央协调者,与其他专门处理特定模态的“专家”智能体进行交互。这种方法不仅降低了引入新模态的门槛,还展示了通过协作解决复杂跨模态任务的潜力,为 LLM 的通用性扩展提供了新思路。
本文构建了一个跨学科框架,结合认知科学理论来剖析大语言模型(LLM)的推理机制。作者深入探讨了人类推理的认知基础(如因果推断、类比推理)如何在 LLM 中体现,并提出了评估模型是否真正具备推理能力或仅是表面模仿的方法。该研究通过系统的分析和实证评估,揭示了当前 LLM 在模拟人类高级认知过程方面的优势与局限,为未来开发更具鲁棒性推理能力的模型提供了理论指导。
Anthropic 的这项研究在多个被训练为“不诚实”的模型上,评估了各种提高诚实度和检测谎言的技术。研究发现,最有效的方法是在通用的反欺骗数据上进行微调(Fine-tuning),并配合鼓励诚实的提示词(Prompting)。相比之下,复杂的“白盒”测谎技术(如基于激活的检测)效果并不理想。该工作强调了基础的微调和提示策略在对齐模型诚实性方面的有效性,并公开了相关数据集以促进后续研究。
腾讯混元团队推出的HunyuanOCR是一个统一且高效的OCR系统,旨在解决复杂文档(如多栏布局、公式、图表等)的解析难题。该模型拥有10亿参数,采用分层结构(检测、识别、结构化),在OCRBench等基准测试中取得了SOTA性能,优于现有的开源模型和商业API。HunyuanOCR特别优化了对RAG(检索增强生成)管道的支持,大幅提升了文档解析的精度和效率。
论文提出了OmniScientist框架,旨在构建一个人类与AI科学家共同进化的科研生态系统。该系统集成了名为OmniScientist-π的AI代理,能够利用海量文献和数据生成创新想法、设计实验并进行验证。通过“构想-验证-进化”的闭环机制,OmniScientist不仅能辅助人类进行科学探索,还能在多个学科基准上展现出超越人类专家的能力,推动了自动化科研(AI for Science)的发展。
针对自动软件修复(APR)中因测试用例不足导致补丁过拟合或不仅其用的问题,本文提出了InfCode框架。该框架包含测试增强和对抗性代码细化两个阶段,通过生成新测试用例并与补丁生成器进行对抗性迭代,显著提高了补丁的可靠性。在SWE-bench验证集上,InfCode实现了54.4%的解决率,证明了其在解决实际GitHub问题时的有效性。
本文介绍了一种无需从头训练即可将大语言模型(LLM)的上下文窗口扩展到 1600 万(16M)个 token 的方法。作者提出了一种新的位置编码扩展技术,结合特定的微调策略,有效地缓解了长上下文带来的注意力分散问题。实验表明,该方法在保持短文本性能的同时,显著提升了模型在超长文本理解和检索任务中的能力,为处理极长文档提供了新的解决方案。