Agent World 与世界模型升温:扣子 2.5、DeepSeek V4、Matrix-Game 3.0 同日抢镜

今日摘要

今天的 AI 资讯呈现出两条主线:一是 AI Agent 从工具走向“数字伙伴”,扣子 2.5、Gemini 交互式模拟、MiniMax Music 2.6 都在强化可执行与可交互能力;二是 多模态与视觉生成研究继续提速,从实时世界模型、弹性 Transformer 到合成数据训练 VLM,论文与产品两端同时推进。

值得重点关注的是,Matrix-Game 3.0 将 720p 实时长时视频世界模型推至 40 FPS,DeepSeek V4 释放出万亿参数与国产芯片适配信号,而 扣子 2.5 则进一步把 Agent 基础设施产品化。

🔬 最新论文

1. 🎮 Matrix-Game 3.0:实时长时记忆世界模型再进一步

  • 📄 标题:Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
  • 🔗 链接https://arxiv.org/abs/2604.08995
  • 📝 简介:这篇论文聚焦交互式视频生成中的核心难题:如何同时实现高分辨率、实时推理与长时记忆一致性。作者提出 Matrix-Game 3.0,在数据引擎、训练框架和推理蒸馏三方面系统升级,实现 720p 长视频实时生成。
  • 💡 核心要点
    • 支持 720p、最高 40 FPS 的实时生成,面向工业级可部署世界模型。
    • 通过 记忆检索注入 + 残差自纠错训练,强化分钟级时空一致性。
    • 引入多段自回归蒸馏、量化与 VAE decoder 剪枝,兼顾质量与速度。

2. ♻️ ELT:用循环共享权重,把视觉生成模型做得更轻

  • 📄 标题:ELT: Elastic Looped Transformers for Visual Generation
  • 🔗 链接https://arxiv.org/abs/2604.09168
  • 📝 简介:ELT 提出一种循环式 Transformer 生成架构,用共享权重替代传统深层独立堆叠,在维持图像与视频生成质量的同时显著减少参数量。
  • 💡 核心要点
    • 借助 权重共享循环块,在同等推理计算下实现约 4 倍参数压缩
    • 提出 Intra-Loop Self Distillation,让不同循环深度都可稳定工作。
    • 支持 Any-Time Inference,可按算力动态折中速度与质量。

3. 🧪 VisionFoundry:只给任务名,也能自动造出训练 VLM 的合成数据

  • 📄 标题:VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
  • 🔗 链接https://arxiv.org/abs/2604.09531
  • 📝 简介:论文尝试回答一个很实用的问题:能否仅凭“任务关键词”,自动生成提升视觉感知能力的训练数据?作者构建了从问题、答案、提示词到图像合成和一致性验证的一体化流水线。
  • 💡 核心要点
    • 构建 VisionFoundry-10K,覆盖 10 类视觉感知任务。
    • 在 MMVP、CV-Bench-3D 等基准上分别提升 7%10%
    • 说明 针对性合成监督 可能是补齐 VLM 低层视觉能力的有效路径。

4. 🎥 CT-1:把空间推理知识迁移到可控视频运镜

  • 📄 标题:CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
  • 🔗 链接https://arxiv.org/abs/2604.09201
  • 📝 简介:CT-1 试图解决视频生成里“镜头怎么动”这个长期痛点。相比仅靠文本描述或手工相机轨迹,CT-1 通过视觉-语言-相机联合建模,更准确地估计和控制运镜。
  • 💡 核心要点
    • 引入专门的 Vision-Language-Camera 模型估计相机轨迹。
    • 基于 47M 帧 数据构建 CT-200K 数据集。
    • 相机控制精度较已有方法提升 25.7%

5. 📦 EXAONE 4.5:LG 发布首个开源权重视觉语言模型

  • 📄 标题:EXAONE 4.5 Technical Report
  • 🔗 链接https://arxiv.org/abs/2604.08644
  • 📝 简介:LG AI Research 发布 EXAONE 4.5,重点强化文档理解、长上下文与韩语推理能力,显示企业级多模态模型正在朝“行业可用”方向优化。
  • 💡 核心要点
    • 是 LG 首个 open-weight VLM
    • 支持 256K 上下文,适合企业长文档场景。
    • 在文档理解与韩语上下文推理上表现突出。

📰 行业动态

6. 🤖 扣子 2.5 升级 Agent World,给智能体配上“云电脑 + 云手机 + 邮箱”

  • 📄 标题:扣子 2.5 重磅升级!给 AI Agent 配云电脑 + 云手机 + 独立邮箱,还建了个“平行世界”

  • 🔗 链接https://www.aibase.com/zh/news/27029

  • 📝 简介:扣子 2.5 的核心变化不是简单加功能,而是把 Agent 的运行环境基础设施化。Agent World 试图让智能体拥有长期记忆、独立身份和可持续协作的数字空间。

  • 💡 核心要点

    • Agent 获得 独立身份、长期记忆与专属虚拟空间
    • 借助 云电脑/云手机,可执行网页浏览、脚本运行、文件处理甚至安装原生 App。
    • 提供 @coze.email 独立邮箱,增强 Agent 间与外部系统协作能力。
  • 🖼️ 配图

7. 🧠 DeepSeek V4 曝光:万亿参数与国产芯片适配成最大看点

  • 📄 标题:DeepSeek V4将于4月下旬发布:万亿参数规模并深度适配国产芯片

  • 🔗 链接https://www.aibase.com/zh/news/27029

  • 📝 简介:从现有披露信息看,DeepSeek V4 不只是参数规模升级,更重要的是释放出“国产算力生态深度适配”的行业信号。

  • 💡 核心要点

    • 预计迈入 万亿参数百万级上下文窗口
    • 强调与 华为昇腾等国产芯片 的深度协同。
    • 对国内算力、模型与部署生态一体化具有风向标意义。
  • 🖼️ 配图

8. 🎵 MiniMax Music 2.6:AI 音乐开始走向“可控翻唱”与 Agent 化创作

  • 📄 标题:AI 音乐进入“翻唱”时代!MiniMax 发布 Music 2.6:推出全新 Cover 功能与 Agent 技能

  • 🔗 链接https://www.aibase.com/zh/news/27029

  • 📝 简介:MiniMax Music 2.6 将 AI 音乐从“生成一段旋律”推进到更可控的创作流程,尤其是 Cover 与 Agent 技能,体现出音乐生成产品正在向工作流工具演进。

  • 💡 核心要点

    • 新增 Cover 功能,强化翻唱与风格转换能力。
    • 引入 Agent 技能,提升创作流程自动化程度。
    • 底层模型优化后,生成质量与交互流畅度同步提升。
  • 🖼️ 配图

9. 🧩 Gemini 新增交互式模拟,让 AI 从“会讲”变成“会演示”

  • 📄 标题:Google Gemini 推出交互式模拟功能:让复杂概念“动”起来

  • 🔗 链接https://www.aibase.com/zh/news/27029

  • 📝 简介:Gemini 正在把多模态能力从静态问答延展到动态演示。交互式 3D 模型和物理模拟场景,尤其适合教育、工程和科普场景。

  • 💡 核心要点

    • 支持生成 可交互 3D 模型与物理模拟
    • 用户可实时调整参数,观察系统行为变化。
    • 体现出多模态助手向 认知可视化工具 的升级趋势。
  • 🖼️ 配图

10. ⚙️ 阿里 Marco-Mini-Instruct:0.6B 小模型 Upcycling 成 17B MoE

  • 📄 标题:阿里黑科技炸场!0.6B 小模型“魔改”成 17B MoE,激活参数仅 5%,CPU 直接跑 30token/s!
  • 🔗 链接https://www.aibase.com/zh/news/27029
  • 📝 简介:这条消息最吸引人的地方在于“低成本高性能”路线:不是一味做更大 Dense 模型,而是通过 Upcycling 把小模型重构为高效 MoE。
  • 💡 核心要点
    • Qwen3-0.6B-Base 升级到 17B MoE 架构。
    • 激活参数仅 0.86B,却超过部分 4B Dense 模型表现。
    • 普通 CPU 即可达到约 30 token/s,本地部署门槛明显降低。

💡 技术亮点

Agent 正从“调用工具”升级为“拥有环境”

这一轮行业动态中,最值得注意的不是单个模型参数刷新,而是 Agent 产品形态正在变化。扣子 2.5 的 Agent World、MiniMax 的 Agent 技能、Gemini 的交互式模拟,本质上都在推动 AI 系统从“回答问题”走向“在环境中行动”。

这意味着未来竞争重点会逐渐从:

  • 模型是否更强,
    转向:
  • 是否拥有长期记忆;
  • 是否能接入真实工具链;
  • 是否具备跨模态感知与执行闭环;
  • 是否能在专属环境中持续协作。

世界模型与视觉生成研究继续向“可部署”靠拢

Matrix-Game 3.0、CT-1、ELT 三篇论文传递出一个明显信号:研究重点已经不只是“能不能生成”,而是“能否实时、稳定、可控、低成本地生成”。

尤其是:

  • Matrix-Game 3.0 解决长时一致性与实时性;
  • CT-1 提升视频相机控制精度;
  • ELT 把生成模型做得更轻、更弹性。

这说明视觉生成领域正在从 Demo 导向,进一步迈向系统工程与产品部署导向。


本文由AI自动整理生成

Agent World 与世界模型升温:扣子 2.5、DeepSeek V4、Matrix-Game 3.0 同日抢镜

https://daily.ailab1024.com/2026/04/13/agent-world-model-breakthrough/

作者

Joker

发布于

2026-04-13

更新于

2026-04-22

许可协议