2026-04-13发表2026-04-22更新AI News

Agent World 与世界模型升温：扣子 2.5、DeepSeek V4、Matrix-Game 3.0 同日抢镜

今日摘要

今天的 AI 资讯呈现出两条主线：一是 AI Agent 从工具走向“数字伙伴”，扣子 2.5、Gemini 交互式模拟、MiniMax Music 2.6 都在强化可执行与可交互能力；二是 多模态与视觉生成研究继续提速，从实时世界模型、弹性 Transformer 到合成数据训练 VLM，论文与产品两端同时推进。

值得重点关注的是，Matrix-Game 3.0 将 720p 实时长时视频世界模型推至 40 FPS，DeepSeek V4 释放出万亿参数与国产芯片适配信号，而 扣子 2.5 则进一步把 Agent 基础设施产品化。

🔬 最新论文

1. 🎮 Matrix-Game 3.0：实时长时记忆世界模型再进一步

📄 标题：Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
🔗 链接：https://arxiv.org/abs/2604.08995
📝 简介：这篇论文聚焦交互式视频生成中的核心难题：如何同时实现高分辨率、实时推理与长时记忆一致性。作者提出 Matrix-Game 3.0，在数据引擎、训练框架和推理蒸馏三方面系统升级，实现 720p 长视频实时生成。
💡 核心要点：
- 支持 720p、最高 40 FPS 的实时生成，面向工业级可部署世界模型。
- 通过 记忆检索注入 + 残差自纠错训练，强化分钟级时空一致性。
- 引入多段自回归蒸馏、量化与 VAE decoder 剪枝，兼顾质量与速度。

2. ♻️ ELT：用循环共享权重，把视觉生成模型做得更轻

📄 标题：ELT: Elastic Looped Transformers for Visual Generation
🔗 链接：https://arxiv.org/abs/2604.09168
📝 简介：ELT 提出一种循环式 Transformer 生成架构，用共享权重替代传统深层独立堆叠，在维持图像与视频生成质量的同时显著减少参数量。
💡 核心要点：
- 借助 权重共享循环块，在同等推理计算下实现约 4 倍参数压缩。
- 提出 Intra-Loop Self Distillation，让不同循环深度都可稳定工作。
- 支持 Any-Time Inference，可按算力动态折中速度与质量。

3. 🧪 VisionFoundry：只给任务名，也能自动造出训练 VLM 的合成数据

📄 标题：VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images
🔗 链接：https://arxiv.org/abs/2604.09531
📝 简介：论文尝试回答一个很实用的问题：能否仅凭“任务关键词”，自动生成提升视觉感知能力的训练数据？作者构建了从问题、答案、提示词到图像合成和一致性验证的一体化流水线。
💡 核心要点：
- 构建 VisionFoundry-10K，覆盖 10 类视觉感知任务。
- 在 MMVP、CV-Bench-3D 等基准上分别提升 7% 与 10%。
- 说明 针对性合成监督 可能是补齐 VLM 低层视觉能力的有效路径。

4. 🎥 CT-1：把空间推理知识迁移到可控视频运镜

📄 标题：CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation
🔗 链接：https://arxiv.org/abs/2604.09201
📝 简介：CT-1 试图解决视频生成里“镜头怎么动”这个长期痛点。相比仅靠文本描述或手工相机轨迹，CT-1 通过视觉-语言-相机联合建模，更准确地估计和控制运镜。
💡 核心要点：
- 引入专门的 Vision-Language-Camera 模型估计相机轨迹。
- 基于 47M 帧 数据构建 CT-200K 数据集。
- 相机控制精度较已有方法提升 25.7%。

5. 📦 EXAONE 4.5：LG 发布首个开源权重视觉语言模型

📄 标题：EXAONE 4.5 Technical Report
🔗 链接：https://arxiv.org/abs/2604.08644
📝 简介：LG AI Research 发布 EXAONE 4.5，重点强化文档理解、长上下文与韩语推理能力，显示企业级多模态模型正在朝“行业可用”方向优化。
💡 核心要点：
- 是 LG 首个 open-weight VLM。
- 支持 256K 上下文，适合企业长文档场景。
- 在文档理解与韩语上下文推理上表现突出。

📰 行业动态

6. 🤖 扣子 2.5 升级 Agent World，给智能体配上“云电脑 + 云手机 + 邮箱”

📄 标题：扣子 2.5 重磅升级！给 AI Agent 配云电脑 + 云手机 + 独立邮箱，还建了个“平行世界”
🔗 链接：https://www.aibase.com/zh/news/27029
📝 简介：扣子 2.5 的核心变化不是简单加功能，而是把 Agent 的运行环境基础设施化。Agent World 试图让智能体拥有长期记忆、独立身份和可持续协作的数字空间。
💡 核心要点：
- Agent 获得 独立身份、长期记忆与专属虚拟空间。
- 借助 云电脑/云手机，可执行网页浏览、脚本运行、文件处理甚至安装原生 App。
- 提供 @coze.email 独立邮箱，增强 Agent 间与外部系统协作能力。
🖼️ 配图：

7. 🧠 DeepSeek V4 曝光：万亿参数与国产芯片适配成最大看点

📄 标题：DeepSeek V4将于4月下旬发布:万亿参数规模并深度适配国产芯片
🔗 链接：https://www.aibase.com/zh/news/27029
📝 简介：从现有披露信息看，DeepSeek V4 不只是参数规模升级，更重要的是释放出“国产算力生态深度适配”的行业信号。
💡 核心要点：
- 预计迈入 万亿参数 与 百万级上下文窗口。
- 强调与 华为昇腾等国产芯片 的深度协同。
- 对国内算力、模型与部署生态一体化具有风向标意义。
🖼️ 配图：

8. 🎵 MiniMax Music 2.6：AI 音乐开始走向“可控翻唱”与 Agent 化创作

📄 标题：AI 音乐进入“翻唱”时代！MiniMax 发布 Music 2.6：推出全新 Cover 功能与 Agent 技能
🔗 链接：https://www.aibase.com/zh/news/27029
📝 简介：MiniMax Music 2.6 将 AI 音乐从“生成一段旋律”推进到更可控的创作流程，尤其是 Cover 与 Agent 技能，体现出音乐生成产品正在向工作流工具演进。
💡 核心要点：
- 新增 Cover 功能，强化翻唱与风格转换能力。
- 引入 Agent 技能，提升创作流程自动化程度。
- 底层模型优化后，生成质量与交互流畅度同步提升。
🖼️ 配图：

9. 🧩 Gemini 新增交互式模拟，让 AI 从“会讲”变成“会演示”

📄 标题：Google Gemini 推出交互式模拟功能：让复杂概念“动”起来
🔗 链接：https://www.aibase.com/zh/news/27029
📝 简介：Gemini 正在把多模态能力从静态问答延展到动态演示。交互式 3D 模型和物理模拟场景，尤其适合教育、工程和科普场景。
💡 核心要点：
- 支持生成 可交互 3D 模型与物理模拟。
- 用户可实时调整参数，观察系统行为变化。
- 体现出多模态助手向 认知可视化工具 的升级趋势。
🖼️ 配图：

10. ⚙️ 阿里 Marco-Mini-Instruct：0.6B 小模型 Upcycling 成 17B MoE

📄 标题：阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！
🔗 链接：https://www.aibase.com/zh/news/27029
📝 简介：这条消息最吸引人的地方在于“低成本高性能”路线：不是一味做更大 Dense 模型，而是通过 Upcycling 把小模型重构为高效 MoE。
💡 核心要点：
- 从 Qwen3-0.6B-Base 升级到 17B MoE 架构。
- 激活参数仅 0.86B，却超过部分 4B Dense 模型表现。
- 普通 CPU 即可达到约 30 token/s，本地部署门槛明显降低。

💡 技术亮点

Agent 正从“调用工具”升级为“拥有环境”

这一轮行业动态中，最值得注意的不是单个模型参数刷新，而是 Agent 产品形态正在变化。扣子 2.5 的 Agent World、MiniMax 的 Agent 技能、Gemini 的交互式模拟，本质上都在推动 AI 系统从“回答问题”走向“在环境中行动”。

这意味着未来竞争重点会逐渐从：

模型是否更强，
转向：
是否拥有长期记忆；
是否能接入真实工具链；
是否具备跨模态感知与执行闭环；
是否能在专属环境中持续协作。

世界模型与视觉生成研究继续向“可部署”靠拢

Matrix-Game 3.0、CT-1、ELT 三篇论文传递出一个明显信号：研究重点已经不只是“能不能生成”，而是“能否实时、稳定、可控、低成本地生成”。

尤其是：

Matrix-Game 3.0 解决长时一致性与实时性；
CT-1 提升视频相机控制精度；
ELT 把生成模型做得更轻、更弹性。

这说明视觉生成领域正在从 Demo 导向，进一步迈向系统工程与产品部署导向。

本文由AI自动整理生成

Agent World 与世界模型升温：扣子 2.5、DeepSeek V4、Matrix-Game 3.0 同日抢镜

https://daily.ailab1024.com/2026/04/13/agent-world-model-breakthrough/

作者

Joker

发布于

2026-04-13

更新于

2026-04-22

许可协议

Agent World 与世界模型升温：扣子 2.5、DeepSeek V4、Matrix-Game 3.0 同日抢镜

今日摘要

🔬 最新论文

1. 🎮 Matrix-Game 3.0：实时长时记忆世界模型再进一步

2. ♻️ ELT：用循环共享权重，把视觉生成模型做得更轻

3. 🧪 VisionFoundry：只给任务名，也能自动造出训练 VLM 的合成数据

4. 🎥 CT-1：把空间推理知识迁移到可控视频运镜

5. 📦 EXAONE 4.5：LG 发布首个开源权重视觉语言模型

📰 行业动态

6. 🤖 扣子 2.5 升级 Agent World，给智能体配上“云电脑 + 云手机 + 邮箱”

7. 🧠 DeepSeek V4 曝光：万亿参数与国产芯片适配成最大看点

8. 🎵 MiniMax Music 2.6：AI 音乐开始走向“可控翻唱”与 Agent 化创作

9. 🧩 Gemini 新增交互式模拟，让 AI 从“会讲”变成“会演示”

10. ⚙️ 阿里 Marco-Mini-Instruct：0.6B 小模型 Upcycling 成 17B MoE

💡 技术亮点

Agent 正从“调用工具”升级为“拥有环境”

世界模型与视觉生成研究继续向“可部署”靠拢

作者

发布于

更新于

许可协议

归档

目录