MiniMax M2.7、GPT-5.4 mini 与视频 VLM 提效齐发:AI Agent 和多模态效率竞赛升温
今日摘要
今天的 AI 资讯集中在两个方向:一是 模型能力继续下探到更轻、更快、更能执行任务,二是 多模态系统开始系统性追求效率与可编辑性。从 MiniMax M2.7、GPT-5.4 mini,到视频 VLM token 剪枝与分层设计生成,行业正从“更大”转向“更实用”。
🔬 最新论文
1. 🎯 视频 VLM 提效新方法:Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
- 📄 标题:Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
- 🔗 链接:https://arxiv.org/abs/2603.18004
- 📝 简介:这篇论文提出 STTS,一种统一的时空 token 打分与剪枝方法,直接同时作用于视觉编码器与 LLM 侧,目标是在视频问答等任务中显著降低计算成本。
- 💡 核心要点:
- 在 ViT 与 LLM 两端统一裁剪视觉 token,而不是只优化单侧模块。
- 无需文本条件选择或 token merge,结构更轻,适合端到端训练。
- 在 13 个长短视频 QA 任务上,剪掉 50% 视觉 token 后,训练和推理效率提升约 62%,平均性能仅下降 0.7%。
- 对长视频场景尤其有价值,采样帧越多,收益越明显。
2. 🎨 可编辑设计生成:LaDe 分层图形媒体生成与分解
- 📄 标题:LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition
- 🔗 链接:https://arxiv.org/abs/2603.17965
- 📝 简介:LaDe 试图把“文生图”推进到“文生可编辑设计文件”,可生成海报、传单、Logo 等多层 RGBA 设计,并支持反向分解。
- 💡 核心要点:
- 不再限制固定层数,能生成数量灵活、语义明确的图层。
- 用 LLM 扩写用户提示词,生成逐层描述,再交给扩散 Transformer 联合生成整体图像与图层。
- 同时支持文本生成、分层设计生成、设计分解三类任务。
- 在 Crello 测试集上,对比 Qwen-Image-Layered,在图层语义对齐上表现更强。
3. 🥽 面向 VR 与具身场景的世界模型:Stereo World Model
- 📄 标题:Stereo World Model: Camera-Guided Stereo Video Generation
- 🔗 链接:https://arxiv.org/abs/2603.17375
- 📝 简介:StereoWorld 关注双目视频生成,直接在 RGB 模态中学习外观与双目几何一致性,适合 VR 渲染和具身智能训练等场景。
- 💡 核心要点:
- 用相机条件控制双目视频生成,而不是先做单目再转双目。
- 引入相机感知的 RoPE 与 stereo-aware attention 分解,兼顾一致性与计算效率。
- 相比强基线方案,生成速度超过 3 倍,视角一致性额外提升约 5%。
- 对 VR、长视频蒸馏、基于深度的策略学习都有潜在价值。
📰 行业动态
4. 🚀 MiniMax 发布 M2.7:强调“自我迭代”的国产大模型
- 📄 标题:模型也会“套娃”?MiniMax 发布 M2.7:首个深度参与自我迭代的国产大模型
- 🔗 链接:https://www.aibase.com/zh/news/26342
- 📝 简介:MiniMax 推出 M2.7,将“模型参与自身迭代”作为核心卖点,强调复杂任务执行、逻辑推理与工具调用能力。
- 💡 核心要点:
- 主打“深度参与自我迭代”,体现模型开发从人工调参走向更自动化闭环。
- 重点面向复杂生产力任务,而不只是通用对话。
- 反映出国产大模型竞争正在从参数规模转向任务完成度与工程闭环。
- 🖼️ 配图:

5. ⚡ OpenAI 发布 GPT-5.4 mini / nano:小模型继续卷性能与价格
- 📄 标题:OpenAI 发布最强小模型:GPT-5.4 mini 与 nano 登场,性能直逼满血版
- 🔗 链接:https://www.aibase.com/zh/news/26342
- 📝 简介:OpenAI 推出 GPT-5.4 mini 与 nano,瞄准高频、低延迟、低成本场景,小模型路线进一步清晰。
- 💡 核心要点:
- GPT-5.4 mini 强调代码与逻辑推理,速度提升超过 2 倍。
- GPT-5.4 nano 体积更小、成本更低,适合分类、抽取等轻量任务。
- 说明模型市场正在细分:旗舰模型负责上限,小模型负责规模化落地。
- 🖼️ 配图:

6. 📱 腾讯 QClaw 接入微信小程序:AI Agent 入口进一步前移
- 📄 标题:微信里也能“养龙虾”了!腾讯 QClaw 接入小程序:文件互传、多模态交互全开启
- 🔗 链接:https://www.aibase.com/zh/news/26342
- 📝 简介:腾讯将 QClaw 接入微信小程序,意味着 AI Agent 不再局限于桌面端或独立应用,而是开始进入高频社交入口。
- 💡 核心要点:
- 支持电脑端与小程序间文件互传,降低任务接力成本。
- 后续将扩展语音、图片等微信原生多模态交互。
- “灵感广场”预置任务模板,说明 Agent 产品正从技术演示走向场景产品化。
- 🖼️ 配图:

7. 🛠️ Unsloth Studio 发布:本地可视化微调继续降门槛
- 📄 标题:Unsloth Studio 发布:首个本地可视化大模型微调平台,显存占用降低 70%
- 🔗 链接:https://www.aibase.com/zh/news/26342
- 📝 简介:Unsloth Studio 把本地大模型微调做成了可视化工具,突出低显存、快训练和一键导出。
- 💡 核心要点:
- 显存占用降低约 70%,消费级显卡也能参与微调。
- 训练效率提升约 2 倍,利好个人开发者与小团队。
- 本地训练工具链成熟,意味着开源模型生态的“最后一公里”持续改善。
- 🖼️ 配图:

💡 技术亮点
8. 🔐 ByteClaw 与企业内网安全:AI Agent 落地开始补“安全课”
- 📄 标题:字节跳动发布ByteClaw工具及《安全规范》,强化大模型内网访问管控
- 🔗 链接:https://www.aibase.com/zh/news/26342
- 📝 简介:随着大模型与 Agent 开始深入企业内网,权限控制、身份认证与环境隔离成为落地关键。ByteClaw 与配套规范,代表行业开始系统化治理这类风险。
- 💡 核心要点:
- 针对典型安全风险提出明确防范要求,强调标准化治理。
- 提供统一身份认证、访问控制与权限管理能力。
- 说明 AI Agent 的竞争已不只是“能不能做”,更是“能不能安全地做”。
- 🖼️ 配图:

本文由AI自动整理生成
MiniMax M2.7、GPT-5.4 mini 与视频 VLM 提效齐发:AI Agent 和多模态效率竞赛升温
https://daily.ailab1024.com/2026/03/19/minimax-gpt54-video-vlm/