AI 视频与智能体双线爆发:Happy Horse、PixVerse C1 刷屏,Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性

今日摘要

今天的 AI 热点呈现出“两条主线”并进:一边是 Happy Horse、PixVerse C1、DeepSeek V4 等产品推动视频与多模态应用快速升温;另一边,Claw-Eval、In-Place TTT、MMEmb-R1 等论文则把关注点拉回到 Agent 可靠性、长上下文适应与多模态表征效率。整体来看,AI 正从“能生成”走向“更可控、更可部署、更能执行复杂任务”。

🔬 最新论文

Agent 评测与推理效率

1. 🧪 Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

  • 🔗 链接:https://arxiv.org/abs/2604.06132
  • 📝 简介:一套面向自主智能体的端到端评测框架,覆盖服务编排、多模态任务和专业对话,并引入轨迹感知评分。
  • 💡 核心要点:
    • 不再只看最终答案,而是记录执行轨迹、审计日志和环境快照。
    • 作者指出传统“只看结果”的评测会漏掉 44% 的安全问题和 13% 的鲁棒性失败。
    • 评测维度覆盖 Completion、Safety、Robustness,更贴近真实部署场景。

2. ⚙️ Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

  • 🔗 链接:https://arxiv.org/abs/2604.05404
  • 📝 简介:研究 LLM 在调用外部工具时的真实时延问题,并提出新的效率指标 PTE。
  • 💡 核心要点:
    • 工具调用会打断推理并导致 KV Cache 失效,推高实际时延。
    • PTE 比 token 数、tool call 数更接近真实墙钟时间。
    • 研究还发现,更高的工具使用成本并不一定带来更高正确率。

3. 🔁 In-Place Test-Time Training

  • 🔗 链接:https://arxiv.org/abs/2604.06169
  • 📝 简介:提出一种可直接增强现有 LLM 的测试时训练方法,让模型在推理阶段动态适应新信息。
  • 💡 核心要点:
    • 将 MLP 最终投影矩阵作为可快速更新的“fast weights”。
    • 无需从头重训,可作为现有模型的“即插即用”增强层。
    • 在超长上下文任务中,4B 模型可处理最高 128k 上下文并取得更优表现。

多模态与具身智能

4. 🧠 MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

  • 🔗 链接:https://arxiv.org/abs/2604.06156
  • 📝 简介:把“推理”引入多模态嵌入学习,但只在必要时启用,以降低延迟和无效开销。
  • 💡 核心要点:
    • 通过 pair-aware selection 判断哪些样本真正受益于推理。
    • 使用强化学习控制推理调用频率。
    • 仅 4B 参数就在 MMEB-V2 上达到 71.2,刷新 SOTA。

5. 🤖 Action Images: End-to-End Policy Learning via Multiview Video Generation

  • 🔗 链接:https://arxiv.org/abs/2604.06168
  • 📝 简介:将机器人策略学习重构为多视角视频生成问题,用像素空间动作表示替代低维动作 token。
  • 💡 核心要点:
    • 把 7-DoF 机器人动作转成可解释的 action images。
    • 统一支持控制、视频生成和动作标注。
    • 在 RLBench 与真实环境中取得更强零样本控制效果。

6. 🎮 Experience Transfer for Multimodal LLM Agents in Minecraft Game

  • 🔗 链接:https://arxiv.org/abs/2604.05533
  • 📝 简介:提出 Echo 记忆框架,让多模态 Agent 在 Minecraft 中显式迁移过往经验。
  • 💡 核心要点:
    • 将经验拆分为结构、属性、过程、功能、交互五个维度。
    • 借助类比式上下文学习实现经验迁移。
    • 在从零开始学习场景下,任务效率提升 1.3x 到 1.7x。

科研工具与代码智能

7. 📚 Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

  • 🔗 链接:https://arxiv.org/abs/2604.06170
  • 📝 简介:一个开源多智能体科研发现与分析框架,涵盖论文检索、评分、知识图谱构建与问答。
  • 💡 核心要点:
    • 将文献发现和文献分析拆成两条 agent pipeline。
    • 可输出 JSON、CSV、BibTeX、Markdown、HTML 等可复现结果。
    • 适合研究者进行系统化综述与相关工作梳理。

8. 🧾 FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

  • 🔗 链接:https://arxiv.org/abs/2604.04074
  • 📝 简介:面向论文审稿的证据驱动系统,可结合相关工作检索与代码执行验证论文主张。
  • 💡 核心要点:
    • 不只读论文文本,还会检索近邻文献并尝试运行开源代码。
    • 为核心 claim 打上 Supported、Partially supported 等证据标签。
    • 展示了 AI 在审稿中的更现实角色:辅助证据收集,而非直接裁决。

9. 🛠️ QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

  • 🔗 链接:https://arxiv.org/abs/2604.05963
  • 📝 简介:针对代码修复中“过度修改”问题,提出基于编辑感知奖励的优化框架。
  • 💡 核心要点:
    • 目标是尽量复用正确代码,只修复真正出错的部分。
    • 通过 EA-GRPO 奖励机制约束模型少改、精改。
    • 在 fix_1@1 指标上,修复精度最高提升 31.4%。

📰 行业动态

视频生成与多模态产品

10. 🎬 Happy Horse 成为 AI 视频赛道“黑马”

  • 🔗 链接:https://www.aibase.com/zh/news/26940

  • 📝 简介:AI Base 报道称,Happy Horse 在文本到视频生成上全面超越 Seedance 2.0,并支持音频生成。

  • 💡 核心要点:

    • 在画面一致性、细节还原和运动自然度上表现突出。
    • 支持音频生成,向真正的多模态视频创作靠近。
    • 背后团队来源尚不明朗,话题性很强。
  • 🖼️ 配图:

11. 🎥 PixVerse C1 发布,主打 15 秒 1080P 音画同步生成

  • 🔗 链接:https://www.aibase.com/zh/news/26940

  • 📝 简介:爱诗科技发布面向影视场景的 PixVerse C1,强调自动分镜、长视频和原生音画同步。

  • 💡 核心要点:

    • 支持 15 秒 1080P 视频生成。
    • 从“单镜头生成”升级到“自动分镜生成”。
    • 原生音画同步意味着更接近可直接交付的影视素材。
  • 🖼️ 配图:

12. 👁️ DeepSeek V4 灰度测试曝光

  • 🔗 链接:https://www.aibase.com/zh/news/26940
  • 📝 简介:DeepSeek V4 被曝进入灰度测试,出现快速版、专家版和视觉版等新架构形态。
  • 💡 核心要点:
    • 新版本强调视觉能力和专家模式。
    • 优先适配国产 AI 芯片,体现供应链自主化思路。
    • 未来可能推出更强的 AI 编程版本,直面 Anthropic、OpenAI 竞争。

Agent、浏览器与开发工具

13. 🌐 腾讯发布 QBotClaw:可自由配置主流大模型 API 的 AI 浏览器

  • 🔗 链接:https://www.aibase.com/zh/news/26940
  • 📝 简介:腾讯推出支持自定义大模型 API 的 AI 浏览器,强调开放性和多端协同。
  • 💡 核心要点:
    • 用户可自由配置国内主流模型 API Key。
    • 浏览器从“访问网页”升级为“执行任务”的 AI 助手。
    • 支持移动端与桌面端联动,扩展使用场景。

14. 🦞 360 推出“虾书”APP,探索 AI 智能体社交社区

  • 🔗 链接:https://www.aibase.com/zh/news/26940
  • 📝 简介:360 以 AI 智能体为核心打造新型社区,用户更多扮演观察者而非直接操作者。
  • 💡 核心要点:
    • 围绕 AI 智能体互动构建内容社区。
    • 延续 OpenClaw 生态思路,意在形成 AI 原生应用集群。
    • 体现出“AI 社交”作为新产品形态的探索。

15. 💻 智谱发布 GLM-5.1,SWE-bench Pro 评分领跑

  • 🔗 链接:https://www.aibase.com/zh/news/26940
  • 📝 简介:智谱发布新模型 GLM-5.1,主打软件工程能力,并同步上调价格。
  • 💡 核心要点:
    • 在 SWE-bench Pro 上刷新成绩,超越 Claude 4.6 Opus。
    • 强调长时间自主工程执行能力,可持续工作数小时。
    • 价格上调也说明行业竞争正从“低价”走向“性能溢价”。

安全与垂直应用

16. 🔐 Anthropic 推出安全限定模型 Mythos

  • 🔗 链接:https://www.aibase.com/zh/news/26940

  • 📝 简介:Anthropic 新模型 Mythos 仅向安全合作伙伴开放试用,重点展示漏洞挖掘能力。

  • 💡 核心要点:

    • 可发现大量零日漏洞,安全能力极强。
    • 因潜在风险较高,未面向大众开放。
    • 反映出高能力模型在安全领域的“双刃剑”属性。
  • 🖼️ 配图:

17. 🚗 豆包大模型首发上车别克至境 E7

  • 🔗 链接:https://www.aibase.com/zh/news/26940

  • 📝 简介:上汽通用将豆包大模型引入智能座舱,推动车载 AI 从指令式交互走向语义理解。

  • 💡 核心要点:

    • 支持 20+ 种情绪识别。
    • 具备上下文连续记忆和路线规划能力。
    • 强调三层安全隔离,体现车载场景对可靠性的高要求。
  • 🖼️ 配图:

💡 技术亮点

1. Agent 进入“可靠性竞争”阶段

从 Claw-Eval 到工具调用效率研究,再到测试时训练,最新论文共同说明:Agent 的核心竞争点已不只是“能不能做”,而是“是否稳定、安全、可复现地完成”。这意味着未来 Agent 产品的护城河,越来越依赖评测体系、记忆机制、工具链效率和在线适应能力。

2. AI 视频从“可生成”迈向“可制作”

Happy Horse 和 PixVerse C1 的共同特征,是把视频生成从单镜头演示推进到更接近工业流程:更长时长、更高分辨率、更强一致性,以及音画同步和分镜控制。对于影视、广告和短剧行业,这类能力比单纯的“惊艳 demo”更具商业价值。

3. 多模态与代码能力继续融合

GLM-5.1、MMEmb-R1、PRepair 等内容表明,模型能力正在进一步向“视觉理解 + 工程执行 + 精细优化”收敛。未来高价值模型很可能不是单一长板,而是在多模态、推理、工具使用和任务执行之间取得更均衡表现。


本文由AI自动整理生成

AI 视频与智能体双线爆发:Happy Horse、PixVerse C1 刷屏,Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性

https://daily.ailab1024.com/2026/04/08/ai-video-agent-breakthrough/

作者

Joker

发布于

2026-04-08

更新于

2026-04-22

许可协议