2026-03-19发表2026-04-22更新AI News

MiniMax M2.7、GPT-5.4 mini 与视频 VLM 提效齐发：AI Agent 和多模态效率竞赛升温

今日摘要

今天的 AI 资讯集中在两个方向：一是 模型能力继续下探到更轻、更快、更能执行任务，二是 多模态系统开始系统性追求效率与可编辑性。从 MiniMax M2.7、GPT-5.4 mini，到视频 VLM token 剪枝与分层设计生成，行业正从“更大”转向“更实用”。

🔬 最新论文

1. 🎯 视频 VLM 提效新方法：Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

📄 标题：Unified Spatio-Temporal Token Scoring for Efficient Video VLMs
🔗 链接：https://arxiv.org/abs/2603.18004
📝 简介：这篇论文提出 STTS，一种统一的时空 token 打分与剪枝方法，直接同时作用于视觉编码器与 LLM 侧，目标是在视频问答等任务中显著降低计算成本。
💡 核心要点：
- 在 ViT 与 LLM 两端统一裁剪视觉 token，而不是只优化单侧模块。
- 无需文本条件选择或 token merge，结构更轻，适合端到端训练。
- 在 13 个长短视频 QA 任务上，剪掉 50% 视觉 token 后，训练和推理效率提升约 62%，平均性能仅下降 0.7%。
- 对长视频场景尤其有价值，采样帧越多，收益越明显。

2. 🎨 可编辑设计生成：LaDe 分层图形媒体生成与分解

📄 标题：LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition
🔗 链接：https://arxiv.org/abs/2603.17965
📝 简介：LaDe 试图把“文生图”推进到“文生可编辑设计文件”，可生成海报、传单、Logo 等多层 RGBA 设计，并支持反向分解。
💡 核心要点：
- 不再限制固定层数，能生成数量灵活、语义明确的图层。
- 用 LLM 扩写用户提示词，生成逐层描述，再交给扩散 Transformer 联合生成整体图像与图层。
- 同时支持文本生成、分层设计生成、设计分解三类任务。
- 在 Crello 测试集上，对比 Qwen-Image-Layered，在图层语义对齐上表现更强。

3. 🥽 面向 VR 与具身场景的世界模型：Stereo World Model

📄 标题：Stereo World Model: Camera-Guided Stereo Video Generation
🔗 链接：https://arxiv.org/abs/2603.17375
📝 简介：StereoWorld 关注双目视频生成，直接在 RGB 模态中学习外观与双目几何一致性，适合 VR 渲染和具身智能训练等场景。
💡 核心要点：
- 用相机条件控制双目视频生成，而不是先做单目再转双目。
- 引入相机感知的 RoPE 与 stereo-aware attention 分解，兼顾一致性与计算效率。
- 相比强基线方案，生成速度超过 3 倍，视角一致性额外提升约 5%。
- 对 VR、长视频蒸馏、基于深度的策略学习都有潜在价值。

📰 行业动态

4. 🚀 MiniMax 发布 M2.7：强调“自我迭代”的国产大模型

📄 标题：模型也会“套娃”？MiniMax 发布 M2.7：首个深度参与自我迭代的国产大模型
🔗 链接：https://www.aibase.com/zh/news/26342
📝 简介：MiniMax 推出 M2.7，将“模型参与自身迭代”作为核心卖点，强调复杂任务执行、逻辑推理与工具调用能力。
💡 核心要点：
- 主打“深度参与自我迭代”，体现模型开发从人工调参走向更自动化闭环。
- 重点面向复杂生产力任务，而不只是通用对话。
- 反映出国产大模型竞争正在从参数规模转向任务完成度与工程闭环。
🖼️ 配图：

MiniMax M2.7

5. ⚡ OpenAI 发布 GPT-5.4 mini / nano：小模型继续卷性能与价格

📄 标题：OpenAI 发布最强小模型：GPT-5.4 mini 与 nano 登场，性能直逼满血版
🔗 链接：https://www.aibase.com/zh/news/26342
📝 简介：OpenAI 推出 GPT-5.4 mini 与 nano，瞄准高频、低延迟、低成本场景，小模型路线进一步清晰。
💡 核心要点：
- GPT-5.4 mini 强调代码与逻辑推理，速度提升超过 2 倍。
- GPT-5.4 nano 体积更小、成本更低，适合分类、抽取等轻量任务。
- 说明模型市场正在细分：旗舰模型负责上限，小模型负责规模化落地。
🖼️ 配图：

GPT-5.4 mini

6. 📱 腾讯 QClaw 接入微信小程序：AI Agent 入口进一步前移

📄 标题：微信里也能“养龙虾”了！腾讯 QClaw 接入小程序：文件互传、多模态交互全开启
🔗 链接：https://www.aibase.com/zh/news/26342
📝 简介：腾讯将 QClaw 接入微信小程序，意味着 AI Agent 不再局限于桌面端或独立应用，而是开始进入高频社交入口。
💡 核心要点：
- 支持电脑端与小程序间文件互传，降低任务接力成本。
- 后续将扩展语音、图片等微信原生多模态交互。
- “灵感广场”预置任务模板，说明 Agent 产品正从技术演示走向场景产品化。
🖼️ 配图：

腾讯 QClaw

7. 🛠️ Unsloth Studio 发布：本地可视化微调继续降门槛

📄 标题：Unsloth Studio 发布：首个本地可视化大模型微调平台，显存占用降低 70%
🔗 链接：https://www.aibase.com/zh/news/26342
📝 简介：Unsloth Studio 把本地大模型微调做成了可视化工具，突出低显存、快训练和一键导出。
💡 核心要点：
- 显存占用降低约 70%，消费级显卡也能参与微调。
- 训练效率提升约 2 倍，利好个人开发者与小团队。
- 本地训练工具链成熟，意味着开源模型生态的“最后一公里”持续改善。
🖼️ 配图：

Unsloth Studio

💡 技术亮点

8. 🔐 ByteClaw 与企业内网安全：AI Agent 落地开始补“安全课”

📄 标题：字节跳动发布ByteClaw工具及《安全规范》，强化大模型内网访问管控
🔗 链接：https://www.aibase.com/zh/news/26342
📝 简介：随着大模型与 Agent 开始深入企业内网，权限控制、身份认证与环境隔离成为落地关键。ByteClaw 与配套规范，代表行业开始系统化治理这类风险。
💡 核心要点：
- 针对典型安全风险提出明确防范要求，强调标准化治理。
- 提供统一身份认证、访问控制与权限管理能力。
- 说明 AI Agent 的竞争已不只是“能不能做”，更是“能不能安全地做”。
🖼️ 配图：

ByteClaw 安全规范

本文由AI自动整理生成

MiniMax M2.7、GPT-5.4 mini 与视频 VLM 提效齐发：AI Agent 和多模态效率竞赛升温

https://daily.ailab1024.com/2026/03/19/minimax-gpt54-video-vlm/

作者

Joker

发布于

2026-03-19

更新于

2026-04-22

许可协议

MiniMax M2.7、GPT-5.4 mini 与视频 VLM 提效齐发：AI Agent 和多模态效率竞赛升温

今日摘要

🔬 最新论文

1. 🎯 视频 VLM 提效新方法：Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

2. 🎨 可编辑设计生成：LaDe 分层图形媒体生成与分解

3. 🥽 面向 VR 与具身场景的世界模型：Stereo World Model

📰 行业动态

4. 🚀 MiniMax 发布 M2.7：强调“自我迭代”的国产大模型

5. ⚡ OpenAI 发布 GPT-5.4 mini / nano：小模型继续卷性能与价格

6. 📱 腾讯 QClaw 接入微信小程序：AI Agent 入口进一步前移

7. 🛠️ Unsloth Studio 发布：本地可视化微调继续降门槛

💡 技术亮点

8. 🔐 ByteClaw 与企业内网安全：AI Agent 落地开始补“安全课”

作者

发布于

更新于

许可协议

归档

目录