字节开源 DeerFlow 2.0、OpenAI“Spud”将至:AI Agent 与多模态能力同步升温
今日摘要
今天的 AI 焦点呈现出两条主线:一是 AI Agent 正在从概念走向企业级编排与落地,字节跳动开源 DeerFlow 2.0、OpenAI 传出新模型 “Spud” 与桌面级超级应用方向;二是 多模态研究继续高速推进,4K 新视角生成、科学多模态大模型、TTS 与自动驾驶等方向都有代表性成果。
从产业到论文,AI 正在同时强化“会思考、会调用工具、会看会听会说”的综合能力。
🔬 最新论文
视觉与多模态
1. 🎯 Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting
- 📄 标题:Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting
- 🔗 链接:https://arxiv.org/abs/2603.25745
- 📝 简介:该论文提出 LGTM 框架,通过“更少的高斯基元 + 每基元纹理”设计,解决传统前馈式 3D Gaussian Splatting 在高分辨率下基元数量随分辨率平方增长的问题,使 4K 级新视角合成首次在无需逐场景优化的前提下变得可行。
- 💡 核心要点:
- 将几何复杂度与渲染分辨率解耦,显著降低高分辨率生成成本。
- 在更少 Gaussian primitives 的情况下实现高保真 4K 合成。
- 对 3D 生成、数字孪生和沉浸式内容生产具有实际价值。
2. 🎯 MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models
- 📄 标题:MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models
- 🔗 链接:https://arxiv.org/abs/2603.25744
- 📝 简介:MuRF 提出一种训练无关的多分辨率融合策略,让冻结的视觉基础模型在推理时同时利用低分辨率的全局语义与高分辨率的局部细节,从而提升视觉表示效果。
- 💡 核心要点:
- 不依赖重新训练,可直接增强 DINOv2、SigLIP2 等模型。
- 强调“推理阶段多尺度融合”而非传统单尺度输入。
- 对分类、检索、分割等多类视觉任务都有潜在增益。
3. 🎯 RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models
- 📄 标题:RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models
- 🔗 链接:https://arxiv.org/abs/2603.25502
- 📝 简介:论文面向真实世界图像退化恢复,构建了覆盖 9 类退化的大规模数据集,并提出 RealIR-Bench 评测基准,推动开源图像恢复模型逼近闭源大模型能力。
- 💡 核心要点:
- 关注真实退化而非理想化合成噪声。
- 引入一致性保持与退化消除的专门评测指标。
- 对自动驾驶、安防、内容修复等场景有直接意义。
4. 🎯 Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale
- 📄 标题:Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale
- 🔗 链接:https://arxiv.org/abs/2603.25040
- 📝 简介:Intern-S1-Pro 宣称是首个万亿参数级科学多模态基础模型,覆盖化学、材料、生命科学、地球科学等 100+ 专业任务,并强化了 Agent 能力。
- 💡 核心要点:
- 万亿参数规模首次深入科学多模态场景。
- 兼顾通用智能与专业科研能力,强调“Specializable Generalist”。
- 展示 RL 训练与推理一致性基础设施的重要性。
语音与生成模型
5. 🎯 Voxtral TTS
- 📄 标题:Voxtral TTS
- 🔗 链接:https://arxiv.org/abs/2603.25551
- 📝 简介:Voxtral TTS 是一个多语言高表现力语音合成模型,只需 3 秒参考音频即可完成自然语音克隆,并在人工评测中对标商业方案取得优势。
- 💡 核心要点:
- 结合自回归语义 token 与 flow-matching 声学 token。
- 支持多语言语音克隆与更强表现力。
- 开源权重发布,有望推动开源 TTS 生态升级。
6. 🎯 S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
- 📄 标题:S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation
- 🔗 链接:https://arxiv.org/abs/2603.25702
- 📝 简介:S2D2 为扩散式语言模型提出无需额外训练的自推测解码框架,让同一个预训练模型同时充当草稿器与验证器,改善速度与准确率平衡。
- 💡 核心要点:
- 面向 diffusion LLM 的推理加速问题。
- 通过轻量路由策略决定何时值得进行验证。
- 在多个 block-diffusion 模型家族上获得更优速度-精度权衡。
自动驾驶与具身方向
7. 🎯 Vega: Learning to Drive with Natural Language Instructions
- 📄 标题:Vega: Learning to Drive with Natural Language Instructions
- 🔗 链接:https://arxiv.org/abs/2603.25741
- 📝 简介:Vega 构建了一个视觉-语言-世界-动作统一模型,并配套 10 万级带自然语言驾驶指令的数据集 InstructScene,使自动驾驶系统能更好理解个性化驾驶意图。
- 💡 核心要点:
- 将语言真正纳入驾驶规划,而非仅用于描述场景。
- 融合自回归建模与扩散式未来轨迹生成。
- 为“可指令化自动驾驶”提供了更现实的研究路径。
📰 行业动态
AI Agent 与产品生态
8. 🤖 字节跳动开源 DeerFlow 2.0,企业级智能体编排再升温
- 📄 标题:字节跳动重磅开源 DeerFlow2.0:打造“中国版”超级智能体编排框架
- 🔗 链接:https://www.aibase.com/zh/news/26587
- 📝 简介:字节跳动开源 DeerFlow 2.0,主打复杂任务拆解、多模型兼容、MCP 协议接入与安全沙盒文件系统,明显瞄准企业级 Agent 编排与多步骤创作场景。
- 💡 核心要点:
- 将多种能力整合为统一的 SuperAgent 调度中心。
- 兼容主流模型与 MCP 生态,降低接入门槛。
- 安全沙盒设计适合代码生成、批量文件处理等高风险场景。
- 🖼️ 配图:

9. 🚀 OpenAI 内测新模型“Spud”,并酝酿桌面级“超级应用”
- 📄 标题:OpenAI内测新模型“Spud”:将关停Sora以整合算力,转型桌面级“超级应用”
- 🔗 链接:https://www.aibase.com/zh/news/26587
- 📝 简介:据 AI 日报汇总,OpenAI 代号为 “Spud” 的新模型已完成预训练,预计数周内发布。与此同时,公司传出将整合 ChatGPT、Codex 与 Atlas,转向统一桌面级 AI 入口。
- 💡 核心要点:
- 新模型已完成预训练,意味着 OpenAI 新一轮模型迭代临近。
- 战略重点从单点产品转向整合式工作入口。
- 若消息属实,OpenAI 正把“模型公司”进一步推进为“操作系统级 AI 平台”。
10. 🧩 钉钉“悟空 AI”发布,企业数字员工继续扩张
- 📄 标题:钉钉悟空 AI 正式发布:双击即用的企业级“数字员工”
- 🔗 链接:https://www.aibase.com/zh/news/26587
- 📝 简介:钉钉推出悟空 AI,强调低门槛部署、数据安全与资源消耗可视化,目标是让企业以更轻量的方式部署办公型 Agent。
- 💡 核心要点:
- 降低企业接入 AI 的技术门槛。
- 强调隐私与组织级安全控制。
- 说明办公 Agent 正从“概念验证”走向标准化产品。
多模态内容生产与商业化
11. 🎬 CapCut 上线 Video Studio 与 AI Video,两条线加速视频生产
- 📄 标题:CapCut 上线两大 AI 重磅功能:画布式 AI 制片工作台 Video Studio + 嵌入式 AI Video
- 🔗 链接:https://www.aibase.com/zh/news/26587
- 📝 简介:CapCut 新增 Video Studio 与 AI Video 两项能力,结合 Dreamina Seedance 2.0 模型,进一步把视频生成与传统编辑流程打通。
- 💡 核心要点:
- 画布式工作流适合复杂视频项目协同。
- 嵌入式生成能力减少素材创作切换成本。
- AI 视频创作正从“单次生成”走向“工作流集成”。
- 🖼️ 配图:

12. 💰 快手财报显示 AIGC 营销素材单季消耗达 40 亿元
- 📄 标题:单季狂撒 40 亿!快手 Q4 财报亮眼:AIGC 营销素材消耗占大头,AI 彻底重塑商业链路
- 🔗 链接:https://www.aibase.com/zh/news/26587
- 📝 简介:快手财报显示,AIGC 营销素材已成为广告链路中的重要组成部分,单季消耗达到 40 亿元,说明生成式内容已从实验性能力进入规模化商业投放。
- 💡 核心要点:
- AIGC 不再只是降本工具,也开始直接贡献收入增长。
- 广告主对 AI 素材的接受度显著提升。
- 生成式 AI 的商业价值正在从模型层转移到流量与投放系统。
13. 🎵 Google DeepMind 推出 Lyria 3 Pro,AI 音乐从片段走向整曲创作
- 📄 标题:音乐人要“失业”?谷歌 DeepMind 发布 Lyria 3 Pro:AI 已能独立编排完整长金曲
- 🔗 链接:https://www.aibase.com/zh/news/26587
- 📝 简介:Lyria 3 Pro 不再停留在短乐句生成,而是具备完整歌曲结构意识,可生成包含前奏、主歌、副歌与桥段的完整音乐作品。
- 💡 核心要点:
- AI 音乐从“生成片段”升级到“编排整曲”。
- 支持高保真输出与多模态交互。
- 将进一步冲击音乐制作、广告配乐与内容创作行业。
💡 技术亮点
1. AI Agent 的竞争焦点,正在从“会聊天”转向“会编排、会执行、可治理”
DeerFlow 2.0、钉钉悟空 AI、OpenAI 的“超级应用”方向,反映出一个非常清晰的趋势:下一阶段的 AI 竞争,不再只是模型参数和榜单分数,而是 任务编排能力、工具调用能力、跨应用协作能力,以及安全治理能力。
尤其是 DeerFlow 2.0 强调的 MCP 接入与沙盒文件系统,说明企业真正关心的是:
- AI 能否接入现有工具链;
- AI 能否稳定完成多步骤任务;
- AI 出错时是否可控、可审计、可隔离。
2. 多模态能力正在走向“高分辨率、高一致性、强工作流”
从 LGTM 的 4K 新视角合成,到 CapCut 的画布式 AI 制片,再到 Voxtral TTS 和 Lyria 3 Pro,可以看到多模态模型正在摆脱“演示效果”,进入真正可生产、可交付、可商业化的阶段。
这意味着未来内容生产的关键门槛,可能不再只是“能不能生成”,而是:
- 能否持续保持角色与风格一致;
- 能否适配复杂工作流;
- 能否在高分辨率和高质量要求下稳定输出。
3. 科学与专业场景仍是大模型价值的高地
Intern-S1-Pro 这样的万亿级科学多模态模型,说明 AI 正在向高价值专业领域深入。相比通用聊天,科研、工业、医疗、自动驾驶等场景对可靠性、专业性和工具整合能力要求更高,也更容易形成真正的行业壁垒。
本文由AI自动整理生成
字节开源 DeerFlow 2.0、OpenAI“Spud”将至:AI Agent 与多模态能力同步升温
https://daily.ailab1024.com/2026/03/27/deerflow-openai-spud/