Qwen 3.5-Max 冲上全球前五,QClaw 公测与长程 Agent 论文齐发
今日摘要
今天的 AI 资讯呈现出两条主线:一是国产与国际大模型继续冲击性能上限,Qwen 3.5-Max、Mistral Small 4、Cursor Composer 2 等产品密集发布;二是 Agent 正从“能调用工具”走向“能完成长程任务”,相关论文与产品同时升温。与此同时,多模态视频、3D 世界生成和个性化内容生成也在持续突破。
🔬 最新论文
Agent 与强化学习
1. 🎯 A Subgoal-driven Framework for Improving Long-Horizon LLM Agents
- 📄 标题:A Subgoal-driven Framework for Improving Long-Horizon LLM Agents
- 🔗 链接:https://arxiv.org/abs/2603.19685
- 📝 简介:论文提出面向长程任务的 LLM Agent 框架,通过子目标分解与里程碑奖励,显著提升网页导航等复杂任务成功率。
- 💡 核心要点:
- 将在线推理中的任务拆解为可执行子目标,缓解长链路任务中的“迷航”问题。
- 提出 MiRA 奖励机制,用密集里程碑奖励替代稀疏终局奖励。
- Gemma3-12B 在 WebArena-Lite 上成功率从 6.4% 提升到 43.0%,超过多种闭源系统。
2. 🤖 Hyperagents
- 📄 标题:Hyperagents
- 🔗 链接:https://arxiv.org/abs/2603.19461
- 📝 简介:这篇工作探索“可自我修改的智能体”,让任务求解与自我改进机制本身都能持续进化。
- 💡 核心要点:
- 将 task agent 与 meta agent 合并为一个可编辑程序。
- 不仅优化任务表现,也优化“如何优化自己”的元机制。
- 展示了跨领域迁移的自我改进能力,是通向开放式自进化系统的重要一步。
多模态与世界模型
3. 🌍 WorldAgents: Can Foundation Image Models be Agents for 3D World Models?
- 📄 标题:WorldAgents: Can Foundation Image Models be Agents for 3D World Models?
- 🔗 链接:https://arxiv.org/abs/2603.19708
- 📝 简介:研究者提出多智能体式 3D 世界生成框架,验证 2D 基础图像模型是否已隐含 3D 世界理解能力。
- 💡 核心要点:
- 使用“导演-生成器-验证器”多智能体结构组织世界生成流程。
- 结合 VLM 评估 2D 图像质量与 3D 重建一致性。
- 结果表明,现有 2D 基础模型确实具备一定 3D 世界建模潜力。
4. 🎬 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
- 📄 标题:LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
- 🔗 链接:https://arxiv.org/abs/2603.20192
- 📝 简介:该论文聚焦个性化视频生成中的“人物—属性”精确绑定问题,提升多人场景下的一致性与可控性。
- 💡 核心要点:
- 构建了面向人物属性依赖的新数据处理流程与基准。
- 设计 Relational Self-Attention / Cross-Attention 强化人物属性关系建模。
- 在多主体视频生成任务上达到 SOTA。
5. 🏠 FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
- 📄 标题:FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
- 🔗 链接:https://arxiv.org/abs/2603.19598
- 📝 简介:论文提出面向室内场景的多模态图生成模型,实现布局、形状、纹理的协同生成与风格一致控制。
- 💡 核心要点:
- 同时生成场景布局、物体形状和纹理。
- 图结构建模提升对象级可控性与整体风格协调性。
- 在真实感和用户偏好上优于语言驱动与图驱动基线。
生成模型与 NLP
6. 🧩 Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD
- 📄 标题:Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD
- 🔗 链接:https://arxiv.org/abs/2603.20155
- 📝 简介:该工作尝试解决离散扩散模型难以蒸馏的问题,让模型以更少采样步数保持质量与多样性。
- 💡 核心要点:
- 提出 D-MMD 蒸馏方法,将连续扩散中的成功经验迁移到离散域。
- 在文本和图像任务上都表现稳定。
- 蒸馏后的学生模型在部分设置下可超过教师模型。
7. 🌐 XBridge: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality
- 📄 标题:Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality
- 🔗 链接:https://arxiv.org/abs/2603.17512
- 📝 简介:论文提出 XBridge 组合架构,把 LLM 作为英语知识核心,再通过翻译模型扩展多语言能力。
- 💡 核心要点:
- 不必重训 LLM,即可提升低资源语言与未见语言表现。
- 通过映射层与最优传输目标解决跨模型表示对齐问题。
- 在理解、推理、摘要和生成任务上优于强基线。
📰 行业动态
大模型与基础模型
8. 🚀 中国模型登顶:Qwen 3.5-Max-Preview 跃升全球前五
📄 标题:中国模型登顶!阿里通义千问 3.5-Max 震撼亮相:全球排名跃升第五
📝 简介:阿里发布 Qwen 3.5-Max-Preview,在 LM Arena 取得全球前五成绩,成为今日最受关注的大模型进展之一。
💡 核心要点:
- 综合成绩达 1464 分,跻身全球头部阵营。
- 数学与推理能力表现突出,显示国产模型在高难任务上的持续追赶。
- 说明中国基础模型正从“可用”快速迈向“顶级竞争”。
🖼️ 配图:

9. 🧠 Mistral Small 4 发布:推理、多模态、编程三线并进
📄 标题:欧洲 AI 霸主祭出“全能王”!Mistral Small 4 发布:推理、多模态、编程我全都要
📝 简介:Mistral AI 推出新一代小型旗舰模型,强调高效率 MoE 架构下的全能能力。
💡 核心要点:
- 119B 总参数、6B 激活参数,兼顾性能与推理效率。
- 覆盖推理、多模态理解与代码任务。
- 在延迟优化模式下端到端时间缩短 40%。
🖼️ 配图:

10. 💻 Cursor Composer 2:逼近 GPT-5 的编程模型,价格更低
📄 标题:Cursor 发布 Composer 2 编程模型:性能直追 GPT-5,价格仅为其几分之一
📝 简介:Cursor 推出自研代码模型 Composer 2,意在摆脱对外部 API 的依赖,建立从编辑器到模型的完整闭环。
💡 核心要点:
- 在 CursorBench 上达到 61.3 分,超过 Claude Opus 4.6。
- 每百万 Token 仅约 0.50 美元,成本极具竞争力。
- 反映 AI 编程市场正从“接入模型”转向“自建模型能力”。
🖼️ 配图:

Agent 与应用落地
11. 🦞 腾讯 QClaw 正式公测:微信远程操控 PC 的 AI 助手来了
📄 标题:腾讯 QClaw 正式开启公测:无需邀请码,微信远程操控 PC 的 AI“小龙虾”来了
📝 简介:腾讯 QClaw 开放公测,主打“微信直连 + 远程控制 PC + Skills 生态”,是 Agent 落地办公场景的重要信号。
💡 核心要点:
- 无需邀请码即可体验,降低使用门槛。
- 支持文件处理、邮件生成、GitHub 自动提交等办公与开发任务。
- 表明国内 Agent 产品正加速从概念验证走向真实工作流。
🖼️ 配图:

12. 🛒 豆包内测 AI 电商:一句话下单成为新入口
📄 标题:2.2亿月活背后的野心:豆包内测AI电商,“一句话下单”电商闭环
📝 简介:豆包正在测试 AI 电商功能,尝试把对话式交互直接连接到购买决策与交易闭环。
💡 核心要点:
- 强调“一句话购物”的自然语言交互体验。
- 依托高月活用户基础,有望快速验证转化效率。
- AI 应用竞争正从助手能力延伸到商业闭环能力。
🖼️ 配图:

13. 🖥️ Gemini 测试 macOS 原生应用,桌面智能竞争升级
- 📄 标题:谷歌秘密测试 macOS 版 Gemini 应用,或推“桌面智能”屏幕共享功能
- 🔗 链接:https://www.aibase.com/zh/news/26426
- 📝 简介:Google 正测试 macOS 原生 Gemini 应用,可能将屏幕理解与桌面交互整合进桌面端助手。
- 💡 核心要点:
- 原生应用意味着更深层系统集成。
- “桌面智能”将使模型理解正在运行的应用与屏幕内容。
- 与 QClaw、Claude 插件等产品共同指向桌面 Agent 新战场。
💡 技术亮点
1. Agent 竞争进入“长程执行”阶段
从 QClaw 公测到长程 Agent 论文,再到 Hyperagents 的自我改进设想,今天最清晰的趋势是:Agent 的竞争焦点已从“会不会调用工具”转向“能否稳定完成复杂任务”。未来评估标准将更多集中在任务成功率、长期规划能力和安全可控性。
2. 多模态生成从“能生成”走向“可控生成”
LumosX、FlowScene 与 WorldAgents 共同说明,多模态研究正在从单纯提升画质,转向更细粒度的结构控制、身份一致性与三维一致性。这意味着视频、3D 和场景生成将更接近真实生产流程需求。
3. 大模型市场进入“性能 + 成本 + 场景”三维竞争
Qwen 3.5-Max、Mistral Small 4、Composer 2 的共同特征是:不再只拼榜单,而是同时强调推理能力、部署效率和特定场景价值。2026 年的大模型竞争,已经从参数竞赛升级为系统化产品竞争。
本文由AI自动整理生成
Qwen 3.5-Max 冲上全球前五,QClaw 公测与长程 Agent 论文齐发