AI 视频与智能体双线爆发:Happy Horse、PixVerse C1 刷屏,Claw-Eval 与 In-Place TTT 聚焦 Agent 可靠性

今日摘要

今天的 AI 热点呈现出“两条主线”并进:一边是 Happy Horse、PixVerse C1、DeepSeek V4 等产品推动视频与多模态应用快速升温;另一边,Claw-Eval、In-Place TTT、MMEmb-R1 等论文则把关注点拉回到 Agent 可靠性、长上下文适应与多模态表征效率。整体来看,AI 正从“能生成”走向“更可控、更可部署、更能执行复杂任务”。

阅读更多

字节开源 DeerFlow 2.0、OpenAI“Spud”将至:AI Agent 与多模态能力同步升温

今日摘要

今天的 AI 焦点呈现出两条主线:一是 AI Agent 正在从概念走向企业级编排与落地,字节跳动开源 DeerFlow 2.0、OpenAI 传出新模型 “Spud” 与桌面级超级应用方向;二是 多模态研究继续高速推进,4K 新视角生成、科学多模态大模型、TTS 与自动驾驶等方向都有代表性成果。

从产业到论文,AI 正在同时强化“会思考、会调用工具、会看会听会说”的综合能力。

阅读更多

GPT-5.3 紧急上线拒绝"爹味",DeepSeek V4 万亿参数即将发布,谷歌 Gemini 3.1 推理性能翻倍

今日摘要

今日 AI 领域重磅消息不断:OpenAI 紧急推出 GPT-5.3 Instant 重点解决”爹味”说教问题;DeepSeek V4 万亿参数旗舰模型即将发布,支持 100 万上下文;谷歌发布 Gemini 3.1 Pro,推理性能翻倍超越 GPT-5.2;阿里通义千问负责人林俊旸宣布离职,引发行业震动。

阅读更多

世界模型三位一体理论突破:CoW-Bench基准发布,自动驾驶风险预测新进展

今日摘要

本期聚焦世界模型构建的核心原则、端到端自动驾驶的风险感知突破,以及多模态交互的最新进展。学术界提出”一致性三位一体”理论框架,为通用世界模型指明方向;自动驾驶领域通过风险感知预测控制实现泛化能力提升;社交手势生成和图像创作工具也迎来重大更新。

阅读更多

Mobile-O开启移动端AI新纪元:iPhone实时多模态生成,Gemini 3深度推理登顶编程榜,AI Agents安全隐患引关注

今日摘要

移动AI迎来里程碑突破!Mobile-O成为首个在iPhone上实时运行的统一多模态模型,3秒生成512×512图像;Gemini 3 Deep Think在编程竞赛中达到3455 Elo,全球仅7人能击败;大规模视频推理数据集VBVR发布,包含100万+视频片段;AI Agents安全研究揭示自主系统的严重漏洞;多个VLA机器人模型推动具身智能发展。

阅读更多

具身智能爆发:蚂蚁灵波、宇树连发 VLA 大模型,推理奖励模型引领 AI Agent 新突破

今日摘要

具身智能领域迎来重大突破!蚂蚁集团发布 LingBot-VLA 双臂机器人操控模型,宇树开源 UnifoLM-VLA-0 为人形机器人注入”物理常识”。同时,多个推理奖励模型框架(R2M、TTCS、SSL)正在重塑 AI Agent 的优化范式,标志着从语义理解向实体交互的关键跃迁。

阅读更多