2026-04-08发表2026-04-22更新AI News

AI 视频与智能体双线爆发：Happy Horse、PixVerse C1 刷屏，Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性

今日摘要

今天的 AI 热点呈现出“两条主线”并进：一边是 Happy Horse、PixVerse C1、DeepSeek V4 等产品推动视频与多模态应用快速升温；另一边，Claw-Eval、In-Place TTT、MMEmb-R1 等论文则把关注点拉回到 Agent 可靠性、长上下文适应与多模态表征效率。整体来看，AI 正从“能生成”走向“更可控、更可部署、更能执行复杂任务”。

🔬 最新论文

Agent 评测与推理效率

1. 🧪 Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

🔗 链接：https://arxiv.org/abs/2604.06132
📝 简介：一套面向自主智能体的端到端评测框架，覆盖服务编排、多模态任务和专业对话，并引入轨迹感知评分。
💡 核心要点：
- 不再只看最终答案，而是记录执行轨迹、审计日志和环境快照。
- 作者指出传统“只看结果”的评测会漏掉 44% 的安全问题和 13% 的鲁棒性失败。
- 评测维度覆盖 Completion、Safety、Robustness，更贴近真实部署场景。

2. ⚙️ Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

🔗 链接：https://arxiv.org/abs/2604.05404
📝 简介：研究 LLM 在调用外部工具时的真实时延问题，并提出新的效率指标 PTE。
💡 核心要点：
- 工具调用会打断推理并导致 KV Cache 失效，推高实际时延。
- PTE 比 token 数、tool call 数更接近真实墙钟时间。
- 研究还发现，更高的工具使用成本并不一定带来更高正确率。

3. 🔁 In-Place Test-Time Training

🔗 链接：https://arxiv.org/abs/2604.06169
📝 简介：提出一种可直接增强现有 LLM 的测试时训练方法，让模型在推理阶段动态适应新信息。
💡 核心要点：
- 将 MLP 最终投影矩阵作为可快速更新的“fast weights”。
- 无需从头重训，可作为现有模型的“即插即用”增强层。
- 在超长上下文任务中，4B 模型可处理最高 128k 上下文并取得更优表现。

多模态与具身智能

4. 🧠 MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

🔗 链接：https://arxiv.org/abs/2604.06156
📝 简介：把“推理”引入多模态嵌入学习，但只在必要时启用，以降低延迟和无效开销。
💡 核心要点：
- 通过 pair-aware selection 判断哪些样本真正受益于推理。
- 使用强化学习控制推理调用频率。
- 仅 4B 参数就在 MMEB-V2 上达到 71.2，刷新 SOTA。

5. 🤖 Action Images: End-to-End Policy Learning via Multiview Video Generation

🔗 链接：https://arxiv.org/abs/2604.06168
📝 简介：将机器人策略学习重构为多视角视频生成问题，用像素空间动作表示替代低维动作 token。
💡 核心要点：
- 把 7-DoF 机器人动作转成可解释的 action images。
- 统一支持控制、视频生成和动作标注。
- 在 RLBench 与真实环境中取得更强零样本控制效果。

6. 🎮 Experience Transfer for Multimodal LLM Agents in Minecraft Game

🔗 链接：https://arxiv.org/abs/2604.05533
📝 简介：提出 Echo 记忆框架，让多模态 Agent 在 Minecraft 中显式迁移过往经验。
💡 核心要点：
- 将经验拆分为结构、属性、过程、功能、交互五个维度。
- 借助类比式上下文学习实现经验迁移。
- 在从零开始学习场景下，任务效率提升 1.3x 到 1.7x。

科研工具与代码智能

7. 📚 Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework

🔗 链接：https://arxiv.org/abs/2604.06170
📝 简介：一个开源多智能体科研发现与分析框架，涵盖论文检索、评分、知识图谱构建与问答。
💡 核心要点：
- 将文献发现和文献分析拆成两条 agent pipeline。
- 可输出 JSON、CSV、BibTeX、Markdown、HTML 等可复现结果。
- 适合研究者进行系统化综述与相关工作梳理。

8. 🧾 FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

🔗 链接：https://arxiv.org/abs/2604.04074
📝 简介：面向论文审稿的证据驱动系统，可结合相关工作检索与代码执行验证论文主张。
💡 核心要点：
- 不只读论文文本，还会检索近邻文献并尝试运行开源代码。
- 为核心 claim 打上 Supported、Partially supported 等证据标签。
- 展示了 AI 在审稿中的更现实角色：辅助证据收集，而非直接裁决。

9. 🛠️ QiMeng-PRepair: Precise Code Repair via Edit-Aware Reward Optimization

🔗 链接：https://arxiv.org/abs/2604.05963
📝 简介：针对代码修复中“过度修改”问题，提出基于编辑感知奖励的优化框架。
💡 核心要点：
- 目标是尽量复用正确代码，只修复真正出错的部分。
- 通过 EA-GRPO 奖励机制约束模型少改、精改。
- 在 fix_1@1 指标上，修复精度最高提升 31.4%。

📰 行业动态

视频生成与多模态产品

10. 🎬 Happy Horse 成为 AI 视频赛道“黑马”

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：AI Base 报道称，Happy Horse 在文本到视频生成上全面超越 Seedance 2.0，并支持音频生成。
💡 核心要点：
- 在画面一致性、细节还原和运动自然度上表现突出。
- 支持音频生成，向真正的多模态视频创作靠近。
- 背后团队来源尚不明朗，话题性很强。
🖼️ 配图：

11. 🎥 PixVerse C1 发布，主打 15 秒 1080P 音画同步生成

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：爱诗科技发布面向影视场景的 PixVerse C1，强调自动分镜、长视频和原生音画同步。
💡 核心要点：
- 支持 15 秒 1080P 视频生成。
- 从“单镜头生成”升级到“自动分镜生成”。
- 原生音画同步意味着更接近可直接交付的影视素材。
🖼️ 配图：

12. 👁️ DeepSeek V4 灰度测试曝光

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：DeepSeek V4 被曝进入灰度测试，出现快速版、专家版和视觉版等新架构形态。
💡 核心要点：
- 新版本强调视觉能力和专家模式。
- 优先适配国产 AI 芯片，体现供应链自主化思路。
- 未来可能推出更强的 AI 编程版本，直面 Anthropic、OpenAI 竞争。

Agent、浏览器与开发工具

13. 🌐 腾讯发布 QBotClaw：可自由配置主流大模型 API 的 AI 浏览器

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：腾讯推出支持自定义大模型 API 的 AI 浏览器，强调开放性和多端协同。
💡 核心要点：
- 用户可自由配置国内主流模型 API Key。
- 浏览器从“访问网页”升级为“执行任务”的 AI 助手。
- 支持移动端与桌面端联动，扩展使用场景。

14. 🦞 360 推出“虾书”APP，探索 AI 智能体社交社区

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：360 以 AI 智能体为核心打造新型社区，用户更多扮演观察者而非直接操作者。
💡 核心要点：
- 围绕 AI 智能体互动构建内容社区。
- 延续 OpenClaw 生态思路，意在形成 AI 原生应用集群。
- 体现出“AI 社交”作为新产品形态的探索。

15. 💻 智谱发布 GLM-5.1，SWE-bench Pro 评分领跑

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：智谱发布新模型 GLM-5.1，主打软件工程能力，并同步上调价格。
💡 核心要点：
- 在 SWE-bench Pro 上刷新成绩，超越 Claude 4.6 Opus。
- 强调长时间自主工程执行能力，可持续工作数小时。
- 价格上调也说明行业竞争正从“低价”走向“性能溢价”。

安全与垂直应用

16. 🔐 Anthropic 推出安全限定模型 Mythos

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：Anthropic 新模型 Mythos 仅向安全合作伙伴开放试用，重点展示漏洞挖掘能力。
💡 核心要点：
- 可发现大量零日漏洞，安全能力极强。
- 因潜在风险较高，未面向大众开放。
- 反映出高能力模型在安全领域的“双刃剑”属性。
🖼️ 配图：

17. 🚗 豆包大模型首发上车别克至境 E7

🔗 链接：https://www.aibase.com/zh/news/26940
📝 简介：上汽通用将豆包大模型引入智能座舱，推动车载 AI 从指令式交互走向语义理解。
💡 核心要点：
- 支持 20+ 种情绪识别。
- 具备上下文连续记忆和路线规划能力。
- 强调三层安全隔离，体现车载场景对可靠性的高要求。
🖼️ 配图：

💡 技术亮点

1. Agent 进入“可靠性竞争”阶段

从 Claw-Eval 到工具调用效率研究，再到测试时训练，最新论文共同说明：Agent 的核心竞争点已不只是“能不能做”，而是“是否稳定、安全、可复现地完成”。这意味着未来 Agent 产品的护城河，越来越依赖评测体系、记忆机制、工具链效率和在线适应能力。

2. AI 视频从“可生成”迈向“可制作”

Happy Horse 和 PixVerse C1 的共同特征，是把视频生成从单镜头演示推进到更接近工业流程：更长时长、更高分辨率、更强一致性，以及音画同步和分镜控制。对于影视、广告和短剧行业，这类能力比单纯的“惊艳 demo”更具商业价值。

3. 多模态与代码能力继续融合

GLM-5.1、MMEmb-R1、PRepair 等内容表明，模型能力正在进一步向“视觉理解 + 工程执行 + 精细优化”收敛。未来高价值模型很可能不是单一长板，而是在多模态、推理、工具使用和任务执行之间取得更均衡表现。

本文由AI自动整理生成

AI 视频与智能体双线爆发：Happy Horse、PixVerse C1 刷屏，Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性

https://daily.ailab1024.com/2026/04/08/ai-video-agent-breakthrough/

作者

Joker

发布于

2026-04-08

更新于

2026-04-22

许可协议

AI 视频与智能体双线爆发：Happy Horse、PixVerse C1 刷屏，Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性

今日摘要

🔬 最新论文

Agent 评测与推理效率

多模态与具身智能

科研工具与代码智能

📰 行业动态

视频生成与多模态产品

Agent、浏览器与开发工具

安全与垂直应用

💡 技术亮点

1. Agent 进入“可靠性竞争”阶段

2. AI 视频从“可生成”迈向“可制作”

3. 多模态与代码能力继续融合

作者

发布于

更新于

许可协议

归档

目录