视觉编码器革命:Penguin-VL挑战CLIP,小米发布首款移动Agent,OpenAI推出GPT-5.4系列

今日摘要

本期聚焦视觉语言模型的架构创新、AI Agent在移动端的落地应用,以及大模型的持续进化。Penguin-VL挑战了传统视觉编码器的预训练范式,小米进军移动端智能体市场,OpenAI发布GPT-5.4系列模型,微软必应全面接入Sora 2,AI技术正在从理论研究加速向实际应用转化。

阅读更多

GPT-5.3 紧急上线拒绝"爹味",DeepSeek V4 万亿参数即将发布,谷歌 Gemini 3.1 推理性能翻倍

今日摘要

今日 AI 领域重磅消息不断:OpenAI 紧急推出 GPT-5.3 Instant 重点解决”爹味”说教问题;DeepSeek V4 万亿参数旗舰模型即将发布,支持 100 万上下文;谷歌发布 Gemini 3.1 Pro,推理性能翻倍超越 GPT-5.2;阿里通义千问负责人林俊旸宣布离职,引发行业震动。

阅读更多

世界模型三位一体理论突破:CoW-Bench基准发布,自动驾驶风险预测新进展

今日摘要

本期聚焦世界模型构建的核心原则、端到端自动驾驶的风险感知突破,以及多模态交互的最新进展。学术界提出”一致性三位一体”理论框架,为通用世界模型指明方向;自动驾驶领域通过风险感知预测控制实现泛化能力提升;社交手势生成和图像创作工具也迎来重大更新。

阅读更多

Mobile-O开启移动端AI新纪元:iPhone实时多模态生成,Gemini 3深度推理登顶编程榜,AI Agents安全隐患引关注

今日摘要

移动AI迎来里程碑突破!Mobile-O成为首个在iPhone上实时运行的统一多模态模型,3秒生成512×512图像;Gemini 3 Deep Think在编程竞赛中达到3455 Elo,全球仅7人能击败;大规模视频推理数据集VBVR发布,包含100万+视频片段;AI Agents安全研究揭示自主系统的严重漏洞;多个VLA机器人模型推动具身智能发展。

阅读更多

字节Seedance 2.0震撼发布,蚂蚁开源万亿参数模型Ring-2.5-1T,Gemini 3 Deep Think血洗编程榜单

今日摘要

今日AI领域迎来多项重磅发布:字节跳动Seedance 2.0实现视频生成工业级交付,蚂蚁集团开源全球首个万亿参数混合线性架构思考模型Ring-2.5-1T,Google Gemini 3 Deep Think在编程与科研领域取得突破性进展。此外,智谱GLM-5、DeepSeek上下文升级、小米机器人VLA模型等也带来重要更新。

阅读更多

视频生成大爆发:Seedance2.0引争议暂停,可灵3.0开创主体参考新纪元

今日摘要

本周AI领域迎来视频生成技术的集中爆发:字节Seedance2.0因真人音色高度一致引发伦理争议紧急暂停功能,可灵AI 3.0全球首创”主体参考”开启AI导演时代,阿里品牌全面升级为”千问”并发布2K分辨率图像模型,腾讯混元推出首个产业级2Bit端侧模型。学术界方面,Agent Banana实现高保真图像编辑突破,UI-Venus-1.5在GUI智能体领域刷新SOTA。

阅读更多

AI新突破:支付宝AI眼镜扫福上线,OpenAI发布Codex桌面版,蚂蚁灵波开源VLA模型引领具身智能新时代

今日摘要

本周AI领域动态频繁:支付宝创新推出AI眼镜扫福体验,OpenAI发布macOS版Codex桌面应用深度整合智能体开发,蚂蚁灵波开源LingBot-VLA和世界模型推动具身智能发展,GPT-5.2、Qwen3等主流大模型迎来性能升级。同时,学术界在长上下文推理、软件工程智能体等方向取得重要进展。

阅读更多