提出针对隐式CoT“潜表不稳”的SIM-CoT:在训练中用辅助解码器为每个隐式token引入步骤级监督,保持语义多样与可解释;推理时移除辅助头,无额外开销;在多模型上显著提升准确与稳定。
提出在预训练数据上做强化学习的RLPT:以“下一段推理”目标从未标注语料自动构造奖励,摆脱人工标注瓶颈;在通用与数学基准上持续获得提升,并展示良好随算力扩展的尺度律,同时增强RLVR基础。
主张“少即是多”的能动智能培养范式:用精心策划的高质量示范而非海量数据训练代理。仅用78个示范,LIMI在AgencyBench达73.5%,显著超越多模型;提出“能动效率原则”,强调理解本质胜于扩充样本。
发布统一多模态模型Qwen3-Omni:Thinker-Talker MoE架构,文本/图像/音频/视频无退化并强化跨模态“思考”;覆盖多语言,语音流式端到端首包理论延迟234ms;开源多款30B变体与音频字幕器。
综述具身智能从LLM到世界模型的进展,系统梳理感知-认知-交互与硬件环节;提出联合MLLM-WM架构以结合语义推理与物理一致性,回顾应用与挑战,并给出未来研究方向。
提出RLMT框架:用奖励模型在开放域对“思考+回答”进行强化,兼容DPO/PPO/GRPO;相较仅限可验证域的RLVR,显著提升WildBench等通用对话与创作能力,并可零起点强化基座模型。
提出PDDL-INSTRUCT:以逻辑式CoT指令微调,使模型显式检验前置条件、状态转移与不变量,生成并自证计划;在标准规划基准最高达94%有效率,缩窄神经与符号规划的鸿沟。
提出统一视觉Tokenizer——AToken:以纯Transformer与4D旋转位置编码,将图像/视频/3D映射至共享4D潜空间,兼顾重建保真与语义理解,支持连续/离散token,并在多项生成与理解任务中具竞争力。
介绍ARE平台与Gaia2基准:支持可扩展环境构建与异步评测,能接入真实应用与MCP;实验显示模型能力与效率存在权衡,预算曲线易平台化,强调新型架构与自适应算力以推进代理研究。