AI 视频与智能体双线爆发:Happy Horse、PixVerse C1 刷屏,Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性
今日摘要
今天的 AI 热点呈现出“两条主线”并进:一边是 Happy Horse、PixVerse C1、DeepSeek V4 等产品推动视频与多模态应用快速升温;另一边,Claw-Eval、In-Place TTT、MMEmb-R1 等论文则把关注点拉回到 Agent 可靠性、长上下文适应与多模态表征效率。整体来看,AI 正从“能生成”走向“更可控、更可部署、更能执行复杂任务”。
🔬 最新论文
Agent 评测与推理效率
1. 🧪 Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents
- 🔗 链接:https://arxiv.org/abs/2604.06132
- 📝 简介:一套面向自主智能体的端到端评测框架,覆盖服务编排、多模态任务和专业对话,并引入轨迹感知评分。
- 💡 核心要点:
- 不再只看最终答案,而是记录执行轨迹、审计日志和环境快照。
- 作者指出传统“只看结果”的评测会漏掉 44% 的安全问题和 13% 的鲁棒性失败。
- 评测维度覆盖 Completion、Safety、Robustness,更贴近真实部署场景。
2. ⚙️ Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
- 🔗 链接:https://arxiv.org/abs/2604.05404
- 📝 简介:研究 LLM 在调用外部工具时的真实时延问题,并提出新的效率指标 PTE。
- 💡 核心要点:
- 工具调用会打断推理并导致 KV Cache 失效,推高实际时延。
- PTE 比 token 数、tool call 数更接近真实墙钟时间。
- 研究还发现,更高的工具使用成本并不一定带来更高正确率。
3. 🔁 In-Place Test-Time Training
- 🔗 链接:https://arxiv.org/abs/2604.06169
- 📝 简介:提出一种可直接增强现有 LLM 的测试时训练方法,让模型在推理阶段动态适应新信息。
- 💡 核心要点:
- 将 MLP 最终投影矩阵作为可快速更新的“fast weights”。
- 无需从头重训,可作为现有模型的“即插即用”增强层。
- 在超长上下文任务中,4B 模型可处理最高 128k 上下文并取得更优表现。
多模态与具身智能
4. 🧠 MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control
- 🔗 链接:https://arxiv.org/abs/2604.06156
- 📝 简介:把“推理”引入多模态嵌入学习,但只在必要时启用,以降低延迟和无效开销。
- 💡 核心要点:
- 通过 pair-aware selection 判断哪些样本真正受益于推理。
- 使用强化学习控制推理调用频率。
- 仅 4B 参数就在 MMEB-V2 上达到 71.2,刷新 SOTA。
5. 🤖 Action Images: End-to-End Policy Learning via Multiview Video Generation
- 🔗 链接:https://arxiv.org/abs/2604.06168
- 📝 简介:将机器人策略学习重构为多视角视频生成问题,用像素空间动作表示替代低维动作 token。
- 💡 核心要点:
- 把 7-DoF 机器人动作转成可解释的 action images。
- 统一支持控制、视频生成和动作标注。
- 在 RLBench 与真实环境中取得更强零样本控制效果。
6. 🎮 Experience Transfer for Multimodal LLM Agents in Minecraft Game
- 🔗 链接:https://arxiv.org/abs/2604.05533
- 📝 简介:提出 Echo 记忆框架,让多模态 Agent 在 Minecraft 中显式迁移过往经验。
- 💡 核心要点:
- 将经验拆分为结构、属性、过程、功能、交互五个维度。
- 借助类比式上下文学习实现经验迁移。
- 在从零开始学习场景下,任务效率提升 1.3x 到 1.7x。
科研工具与代码智能
7. 📚 Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework
- 🔗 链接:https://arxiv.org/abs/2604.06170
- 📝 简介:一个开源多智能体科研发现与分析框架,涵盖论文检索、评分、知识图谱构建与问答。
- 💡 核心要点:
- 将文献发现和文献分析拆成两条 agent pipeline。
- 可输出 JSON、CSV、BibTeX、Markdown、HTML 等可复现结果。
- 适合研究者进行系统化综述与相关工作梳理。
8. 🧾 FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification
- 🔗 链接:https://arxiv.org/abs/2604.04074
- 📝 简介:面向论文审稿的证据驱动系统,可结合相关工作检索与代码执行验证论文主张。
- 💡 核心要点:
- 不只读论文文本,还会检索近邻文献并尝试运行开源代码。
- 为核心 claim 打上 Supported、Partially supported 等证据标签。
- 展示了 AI 在审稿中的更现实角色:辅助证据收集,而非直接裁决。
9. 🛠️ QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization
- 🔗 链接:https://arxiv.org/abs/2604.05963
- 📝 简介:针对代码修复中“过度修改”问题,提出基于编辑感知奖励的优化框架。
- 💡 核心要点:
- 目标是尽量复用正确代码,只修复真正出错的部分。
- 通过 EA-GRPO 奖励机制约束模型少改、精改。
- 在 fix_1@1 指标上,修复精度最高提升 31.4%。
📰 行业动态
视频生成与多模态产品
10. 🎬 Happy Horse 成为 AI 视频赛道“黑马”
📝 简介:AI Base 报道称,Happy Horse 在文本到视频生成上全面超越 Seedance 2.0,并支持音频生成。
💡 核心要点:
- 在画面一致性、细节还原和运动自然度上表现突出。
- 支持音频生成,向真正的多模态视频创作靠近。
- 背后团队来源尚不明朗,话题性很强。
🖼️ 配图:

11. 🎥 PixVerse C1 发布,主打 15 秒 1080P 音画同步生成
📝 简介:爱诗科技发布面向影视场景的 PixVerse C1,强调自动分镜、长视频和原生音画同步。
💡 核心要点:
- 支持 15 秒 1080P 视频生成。
- 从“单镜头生成”升级到“自动分镜生成”。
- 原生音画同步意味着更接近可直接交付的影视素材。
🖼️ 配图:

12. 👁️ DeepSeek V4 灰度测试曝光
- 🔗 链接:https://www.aibase.com/zh/news/26940
- 📝 简介:DeepSeek V4 被曝进入灰度测试,出现快速版、专家版和视觉版等新架构形态。
- 💡 核心要点:
- 新版本强调视觉能力和专家模式。
- 优先适配国产 AI 芯片,体现供应链自主化思路。
- 未来可能推出更强的 AI 编程版本,直面 Anthropic、OpenAI 竞争。
Agent、浏览器与开发工具
13. 🌐 腾讯发布 QBotClaw:可自由配置主流大模型 API 的 AI 浏览器
- 🔗 链接:https://www.aibase.com/zh/news/26940
- 📝 简介:腾讯推出支持自定义大模型 API 的 AI 浏览器,强调开放性和多端协同。
- 💡 核心要点:
- 用户可自由配置国内主流模型 API Key。
- 浏览器从“访问网页”升级为“执行任务”的 AI 助手。
- 支持移动端与桌面端联动,扩展使用场景。
14. 🦞 360 推出“虾书”APP,探索 AI 智能体社交社区
- 🔗 链接:https://www.aibase.com/zh/news/26940
- 📝 简介:360 以 AI 智能体为核心打造新型社区,用户更多扮演观察者而非直接操作者。
- 💡 核心要点:
- 围绕 AI 智能体互动构建内容社区。
- 延续 OpenClaw 生态思路,意在形成 AI 原生应用集群。
- 体现出“AI 社交”作为新产品形态的探索。
15. 💻 智谱发布 GLM-5.1,SWE-bench Pro 评分领跑
- 🔗 链接:https://www.aibase.com/zh/news/26940
- 📝 简介:智谱发布新模型 GLM-5.1,主打软件工程能力,并同步上调价格。
- 💡 核心要点:
- 在 SWE-bench Pro 上刷新成绩,超越 Claude 4.6 Opus。
- 强调长时间自主工程执行能力,可持续工作数小时。
- 价格上调也说明行业竞争正从“低价”走向“性能溢价”。
安全与垂直应用
16. 🔐 Anthropic 推出安全限定模型 Mythos
📝 简介:Anthropic 新模型 Mythos 仅向安全合作伙伴开放试用,重点展示漏洞挖掘能力。
💡 核心要点:
- 可发现大量零日漏洞,安全能力极强。
- 因潜在风险较高,未面向大众开放。
- 反映出高能力模型在安全领域的“双刃剑”属性。
🖼️ 配图:

17. 🚗 豆包大模型首发上车别克至境 E7
📝 简介:上汽通用将豆包大模型引入智能座舱,推动车载 AI 从指令式交互走向语义理解。
💡 核心要点:
- 支持 20+ 种情绪识别。
- 具备上下文连续记忆和路线规划能力。
- 强调三层安全隔离,体现车载场景对可靠性的高要求。
🖼️ 配图:

💡 技术亮点
1. Agent 进入“可靠性竞争”阶段
从 Claw-Eval 到工具调用效率研究,再到测试时训练,最新论文共同说明:Agent 的核心竞争点已不只是“能不能做”,而是“是否稳定、安全、可复现地完成”。这意味着未来 Agent 产品的护城河,越来越依赖评测体系、记忆机制、工具链效率和在线适应能力。
2. AI 视频从“可生成”迈向“可制作”
Happy Horse 和 PixVerse C1 的共同特征,是把视频生成从单镜头演示推进到更接近工业流程:更长时长、更高分辨率、更强一致性,以及音画同步和分镜控制。对于影视、广告和短剧行业,这类能力比单纯的“惊艳 demo”更具商业价值。
3. 多模态与代码能力继续融合
GLM-5.1、MMEmb-R1、PRepair 等内容表明,模型能力正在进一步向“视觉理解 + 工程执行 + 精细优化”收敛。未来高价值模型很可能不是单一长板,而是在多模态、推理、工具使用和任务执行之间取得更均衡表现。
本文由AI自动整理生成
AI 视频与智能体双线爆发:Happy Horse、PixVerse C1 刷屏,Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性
https://daily.ailab1024.com/2026/04/08/ai-video-agent-breakthrough/