2026-03-23发表2026-04-22更新AI News

Qwen 3.5-Max 冲上全球前五，QClaw 公测与长程 Agent 论文齐发

今日摘要

今天的 AI 资讯呈现出两条主线：一是国产与国际大模型继续冲击性能上限，Qwen 3.5-Max、Mistral Small 4、Cursor Composer 2 等产品密集发布；二是 Agent 正从“能调用工具”走向“能完成长程任务”，相关论文与产品同时升温。与此同时，多模态视频、3D 世界生成和个性化内容生成也在持续突破。

🔬 最新论文

Agent 与强化学习

1. 🎯 A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

📄 标题：A Subgoal-driven Framework for Improving Long-Horizon LLM Agents
🔗 链接：https://arxiv.org/abs/2603.19685
📝 简介：论文提出面向长程任务的 LLM Agent 框架，通过子目标分解与里程碑奖励，显著提升网页导航等复杂任务成功率。
💡 核心要点：
- 将在线推理中的任务拆解为可执行子目标，缓解长链路任务中的“迷航”问题。
- 提出 MiRA 奖励机制，用密集里程碑奖励替代稀疏终局奖励。
- Gemma3-12B 在 WebArena-Lite 上成功率从 6.4% 提升到 43.0%，超过多种闭源系统。

2. 🤖 Hyperagents

📄 标题：Hyperagents
🔗 链接：https://arxiv.org/abs/2603.19461
📝 简介：这篇工作探索“可自我修改的智能体”，让任务求解与自我改进机制本身都能持续进化。
💡 核心要点：
- 将 task agent 与 meta agent 合并为一个可编辑程序。
- 不仅优化任务表现，也优化“如何优化自己”的元机制。
- 展示了跨领域迁移的自我改进能力，是通向开放式自进化系统的重要一步。

多模态与世界模型

3. 🌍 WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

📄 标题：WorldAgents: Can Foundation Image Models be Agents for 3D World Models?
🔗 链接：https://arxiv.org/abs/2603.19708
📝 简介：研究者提出多智能体式 3D 世界生成框架，验证 2D 基础图像模型是否已隐含 3D 世界理解能力。
💡 核心要点：
- 使用“导演-生成器-验证器”多智能体结构组织世界生成流程。
- 结合 VLM 评估 2D 图像质量与 3D 重建一致性。
- 结果表明，现有 2D 基础模型确实具备一定 3D 世界建模潜力。

4. 🎬 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

📄 标题：LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation
🔗 链接：https://arxiv.org/abs/2603.20192
📝 简介：该论文聚焦个性化视频生成中的“人物—属性”精确绑定问题，提升多人场景下的一致性与可控性。
💡 核心要点：
- 构建了面向人物属性依赖的新数据处理流程与基准。
- 设计 Relational Self-Attention / Cross-Attention 强化人物属性关系建模。
- 在多主体视频生成任务上达到 SOTA。

5. 🏠 FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

📄 标题：FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow
🔗 链接：https://arxiv.org/abs/2603.19598
📝 简介：论文提出面向室内场景的多模态图生成模型，实现布局、形状、纹理的协同生成与风格一致控制。
💡 核心要点：
- 同时生成场景布局、物体形状和纹理。
- 图结构建模提升对象级可控性与整体风格协调性。
- 在真实感和用户偏好上优于语言驱动与图驱动基线。

生成模型与 NLP

6. 🧩 Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

📄 标题：Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD
🔗 链接：https://arxiv.org/abs/2603.20155
📝 简介：该工作尝试解决离散扩散模型难以蒸馏的问题，让模型以更少采样步数保持质量与多样性。
💡 核心要点：
- 提出 D-MMD 蒸馏方法，将连续扩散中的成功经验迁移到离散域。
- 在文本和图像任务上都表现稳定。
- 蒸馏后的学生模型在部分设置下可超过教师模型。

7. 🌐 XBridge: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

📄 标题：Language on Demand, Knowledge at Core: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality
🔗 链接：https://arxiv.org/abs/2603.17512
📝 简介：论文提出 XBridge 组合架构，把 LLM 作为英语知识核心，再通过翻译模型扩展多语言能力。
💡 核心要点：
- 不必重训 LLM，即可提升低资源语言与未见语言表现。
- 通过映射层与最优传输目标解决跨模型表示对齐问题。
- 在理解、推理、摘要和生成任务上优于强基线。

📰 行业动态

大模型与基础模型

8. 🚀 中国模型登顶：Qwen 3.5-Max-Preview 跃升全球前五

📄 标题：中国模型登顶！阿里通义千问 3.5-Max 震撼亮相：全球排名跃升第五
🔗 链接：https://www.aibase.com/zh/news/26426
📝 简介：阿里发布 Qwen 3.5-Max-Preview，在 LM Arena 取得全球前五成绩，成为今日最受关注的大模型进展之一。
💡 核心要点：
- 综合成绩达 1464 分，跻身全球头部阵营。
- 数学与推理能力表现突出，显示国产模型在高难任务上的持续追赶。
- 说明中国基础模型正从“可用”快速迈向“顶级竞争”。
🖼️ 配图：

9. 🧠 Mistral Small 4 发布：推理、多模态、编程三线并进

📄 标题：欧洲 AI 霸主祭出“全能王”！Mistral Small 4 发布：推理、多模态、编程我全都要
🔗 链接：https://www.aibase.com/zh/news/26426
📝 简介：Mistral AI 推出新一代小型旗舰模型，强调高效率 MoE 架构下的全能能力。
💡 核心要点：
- 119B 总参数、6B 激活参数，兼顾性能与推理效率。
- 覆盖推理、多模态理解与代码任务。
- 在延迟优化模式下端到端时间缩短 40%。
🖼️ 配图：

10. 💻 Cursor Composer 2：逼近 GPT-5 的编程模型，价格更低

📄 标题：Cursor 发布 Composer 2 编程模型：性能直追 GPT-5，价格仅为其几分之一
🔗 链接：https://www.aibase.com/zh/news/26426
📝 简介：Cursor 推出自研代码模型 Composer 2，意在摆脱对外部 API 的依赖，建立从编辑器到模型的完整闭环。
💡 核心要点：
- 在 CursorBench 上达到 61.3 分，超过 Claude Opus 4.6。
- 每百万 Token 仅约 0.50 美元，成本极具竞争力。
- 反映 AI 编程市场正从“接入模型”转向“自建模型能力”。
🖼️ 配图：

Agent 与应用落地

11. 🦞 腾讯 QClaw 正式公测：微信远程操控 PC 的 AI 助手来了

📄 标题：腾讯 QClaw 正式开启公测：无需邀请码，微信远程操控 PC 的 AI“小龙虾”来了
🔗 链接：https://www.aibase.com/zh/news/26426
📝 简介：腾讯 QClaw 开放公测，主打“微信直连 + 远程控制 PC + Skills 生态”，是 Agent 落地办公场景的重要信号。
💡 核心要点：
- 无需邀请码即可体验，降低使用门槛。
- 支持文件处理、邮件生成、GitHub 自动提交等办公与开发任务。
- 表明国内 Agent 产品正加速从概念验证走向真实工作流。
🖼️ 配图：

12. 🛒 豆包内测 AI 电商：一句话下单成为新入口

📄 标题：2.2亿月活背后的野心：豆包内测AI电商，“一句话下单”电商闭环
🔗 链接：https://www.aibase.com/zh/news/26426
📝 简介：豆包正在测试 AI 电商功能，尝试把对话式交互直接连接到购买决策与交易闭环。
💡 核心要点：
- 强调“一句话购物”的自然语言交互体验。
- 依托高月活用户基础，有望快速验证转化效率。
- AI 应用竞争正从助手能力延伸到商业闭环能力。
🖼️ 配图：

13. 🖥️ Gemini 测试 macOS 原生应用，桌面智能竞争升级

📄 标题：谷歌秘密测试 macOS 版 Gemini 应用，或推“桌面智能”屏幕共享功能
🔗 链接：https://www.aibase.com/zh/news/26426
📝 简介：Google 正测试 macOS 原生 Gemini 应用，可能将屏幕理解与桌面交互整合进桌面端助手。
💡 核心要点：
- 原生应用意味着更深层系统集成。
- “桌面智能”将使模型理解正在运行的应用与屏幕内容。
- 与 QClaw、Claude 插件等产品共同指向桌面 Agent 新战场。

💡 技术亮点

1. Agent 竞争进入“长程执行”阶段

从 QClaw 公测到长程 Agent 论文，再到 Hyperagents 的自我改进设想，今天最清晰的趋势是：Agent 的竞争焦点已从“会不会调用工具”转向“能否稳定完成复杂任务”。未来评估标准将更多集中在任务成功率、长期规划能力和安全可控性。

2. 多模态生成从“能生成”走向“可控生成”

LumosX、FlowScene 与 WorldAgents 共同说明，多模态研究正在从单纯提升画质，转向更细粒度的结构控制、身份一致性与三维一致性。这意味着视频、3D 和场景生成将更接近真实生产流程需求。

3. 大模型市场进入“性能 + 成本 + 场景”三维竞争

Qwen 3.5-Max、Mistral Small 4、Composer 2 的共同特征是：不再只拼榜单，而是同时强调推理能力、部署效率和特定场景价值。2026 年的大模型竞争，已经从参数竞赛升级为系统化产品竞争。

本文由AI自动整理生成

Qwen 3.5-Max 冲上全球前五，QClaw 公测与长程 Agent 论文齐发

https://daily.ailab1024.com/2026/03/23/qwen35-qclaw-agents/

作者

Joker

发布于

2026-03-23

更新于

2026-04-22

许可协议

Qwen 3.5-Max 冲上全球前五，QClaw 公测与长程 Agent 论文齐发

今日摘要

🔬 最新论文

Agent 与强化学习

1. 🎯 A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

2. 🤖 Hyperagents

多模态与世界模型

3. 🌍 WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

4. 🎬 LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

5. 🏠 FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

生成模型与 NLP

6. 🧩 Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD

7. 🌐 XBridge: Composing LLMs with Encoder-Decoder Translation Models for Extensible Multilinguality

📰 行业动态

大模型与基础模型

8. 🚀 中国模型登顶：Qwen 3.5-Max-Preview 跃升全球前五

9. 🧠 Mistral Small 4 发布：推理、多模态、编程三线并进

10. 💻 Cursor Composer 2：逼近 GPT-5 的编程模型，价格更低

Agent 与应用落地

11. 🦞 腾讯 QClaw 正式公测：微信远程操控 PC 的 AI 助手来了

12. 🛒 豆包内测 AI 电商：一句话下单成为新入口

13. 🖥️ Gemini 测试 macOS 原生应用，桌面智能竞争升级

💡 技术亮点

1. Agent 竞争进入“长程执行”阶段

2. 多模态生成从“能生成”走向“可控生成”

3. 大模型市场进入“性能 + 成本 + 场景”三维竞争

作者

发布于

更新于

许可协议

归档

目录