具身智能爆发:蚂蚁灵波、宇树连发 VLA 大模型,推理奖励模型引领 AI Agent 新突破
今日摘要
具身智能领域迎来重大突破!蚂蚁集团发布 LingBot-VLA 双臂机器人操控模型,宇树开源 UnifoLM-VLA-0 为人形机器人注入”物理常识”。同时,多个推理奖励模型框架(R2M、TTCS、SSL)正在重塑 AI Agent 的优化范式,标志着从语义理解向实体交互的关键跃迁。
🤖 具身智能:VLA 模型双雄并起
1️⃣ 蚂蚁集团 LingBot-VLA:双臂机器人步入”大模型时代”
蚂蚁集团发布了名为 LingBot-VLA 的视觉-语言-动作(VLA)基础模型,专注于现实世界中的机器人复杂操控。该模型通过海量数据训练,实现了在不同形态机器人上的通用操控能力。

🔑 核心亮点:
- 🧠 混合 Transformer 架构:以 Qwen2.5-VL 作为多模态主干,同时处理多视角图像和自然语言指令
- 🔍 LingBot-Depth 空间感知:通过特征蒸馏技术提升 3D 空间推理能力,在叠放、插入等任务中表现优异
- 🚀 极高数据效率:仅需约 80 条特定任务的演示数据即可快速适配新机器人
- 📦 全套开源:已开源全套训练工具包和模型权重
📄 论文链接
2️⃣ 宇树 UnifoLM-VLA-0:为人形机器人注入”物理常识”
宇树宣布开源 UnifoLM-VLA-0 大模型,该模型专为通用人形机器人设计,标志着机器人大脑从单纯的”图文理解”向具备”物理常识”的具身智能迈出关键一步。

🔑 核心亮点:
- 🧠 物理世界理解:通过在机器人操作数据上的预训练,使模型理解物理世界的交互规律
- 🌐 空间感知增强:深度融合文本指令与 2D/3D 空间细节,增强复杂环境下的空间感知能力
- ⚙️ 动力学建模:集成动作分块预测及动力学约束,实现对长时序动作序列的统一建模
🧠 推理优化:三大框架重塑 AI Agent
3️⃣ R2M:实时对齐的推理奖励模型
来自论文《Real-Time Aligned Reward Model beyond Semantics》的 R2M 框架,通过利用策略模型的实时反馈来对齐奖励模型,有效解决了 RLHF 中的奖励过度优化问题。
💡 核心创新:
- 📊 策略反馈机制:利用策略模型的演化隐藏状态来实时对齐奖励模型
- 🎯 超越语义:不仅依赖语义表示,而是捕捉策略分布的实时变化
- 🔄 缓解奖励偏差:有效减少奖励模型与策略模型之间的不匹配
📄 论文链接 | 👥 作者:Zixuan Huang 等
4️⃣ TTCS:测试时课程合成的自我进化
TTCS (Test-Time Curriculum Synthesis) 提出了一种共同进化的测试时训练框架,通过动态生成问题变体来构建个性化课程。
💡 核心创新:
- 📚 动态课程生成:问题合成器根据求解器当前能力生成渐进式挑战问题
- 🔄 双策略共同进化:合成器和求解器通过迭代优化相互促进
- 🎯 稳定性提升:合成问题扩充训练集,避免测试时训练的不稳定性
5️⃣ SSL:差异化引导的甜点学习
SSL (Sweet Spot Learning) 受网球”甜点区”概念启发,为 Agent 优化提供分层奖励引导。
💡 核心创新:
- 🎾 甜点区原理:通过渐进放大的分层奖励引导策略向解空间的最优区域移动
- 📏 距离分层建模:视觉感知任务奖励接近度,复杂推理任务奖励增量进步
- 📈 理论保证:证明 SSL 保持最优解排序并增强梯度信噪比
📄 论文链接 | 👥 作者:Jinyang Wu 等
🎨 多模态生成:腾讯混元图像 3.0 领跑
6️⃣ 腾讯混元图像 3.0:全球最强开源图生图模型
腾讯混元团队正式开源了 混元图像 3.0 图生图模型,凭借 80B 参数的混合专家架构,在全球影像编辑榜单中位列第七,成为目前全球最强的开源图生图模型。

🔑 核心亮点:
- 🧠 原生多模态架构:实现文本与视觉理解深度融合
- 🎨 多种编辑功能:支持增删改、风格变换、老照片修复等
- 📦 完全开源:已开源模型权重及完整代码,降低开发者使用门槛
🔗 体验地址
🔬 最新论文速递
7️⃣ ASTRA:自动化 Agent 训练框架
ASTRA 提供了一个端到端的自动化框架,用于训练工具增强的语言模型 Agent,通过可验证的强化学习实现规模化数据合成。
💡 核心特性:
- 🌲 工具调用图合成:利用工具调用图的静态拓扑合成多样化轨迹
- 🎮 环境合成框架:将分解的问答轨迹转换为可执行、可验证的环境
- 🔄 统一训练方法:整合 SFT 与在线 RL,平衡任务完成与交互效率
8️⃣ 其他重要论文
📌 Latent Chain-of-Thought as Planning
- 将潜在推理重新定义为规划问题,解耦推理与语言化
- 支持动态确定推理终止,无需固定超参数
- 📄 论文链接
📌 DreamActor-M2:通用角色图像动画
📌 DenseGRPO:从稀疏到密集奖励
- 为流匹配模型对齐提供密集奖励
- 提出奖励感知的探索空间校准方案
- 📄 论文链接
📰 行业动态
9️⃣ Clawd 更名为 OpenClaw:开源 AI 助手爆火
开源个人 AI 助手项目经历了从 Clawd 到 Moltbot 再到 OpenClaw 的更名历程,GitHub 星标突破 10 万,引爆社区。

🔑 核心特性:
- 🧩 开源与社区驱动:强调开源特性和社区参与
- 🚀 功能强大:GitHub 星标数突破 10 万,注重隐私保护
- 🔒 安全性强化:持续强化安全措施,探索维护者薪酬机制
🔟 商汤 SenseNova-MARS:Agentic VLM 开源
商汤科技正式开源了首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型 SenseNova-MARS,在多个榜单中超越了 GPT-5.2。
🔑 核心能力:
- 🧠 动态视觉推理:支持视觉推理与图文搜索的深度融合
- 📊 性能优异:在 MMSearch 和 HR-MMSearch 等评测中表现优异
- 🛠️ 自主规划:通过双阶段训练赋予 AI 自主规划和复杂任务处理能力
💡 技术亮点
1️⃣ 腾讯”元宝派”内测泄露
腾讯 AI 助手”元宝”的社交功能”元宝派”因公测版本截图泄露引发关注,新增”一起听音乐”与”一起看视频”功能。

🔑 核心功能:
- 🎧 娱乐整合:集成 QQ 音乐与腾讯视频资源,支持同步观影和听歌
- 🤝 跨平台社交:实现微信与 QQ 好友跨平台社交整合
- 🤖 AI 群聊助手:提供智能总结、任务监督及冷场调节
2️⃣ 马斯克加码 AI:xAI 计划推出生成式游戏
马斯克对 xAI 的愿景充满信心,计划在明年推出实时生成、高画质且高度个性化的影视内容和电子游戏。
🔑 愿景要点:
- 🎮 AI 生成游戏:预测 xAI 将在 2025 年推出 AI 生成游戏
- 🖼️ 实时生成:强调游戏和影视内容将实现实时生成、高画质和高度个性化
- 🤔 挑战与质疑:当前尚未有令人印象深刻的纯 AI 生成游戏实机演示
3️⃣ Anthropic 遭音乐出版商起诉
音乐出版商起诉 Anthropic,指控其在训练 AI 模型过程中存在大规模盗版行为,并要求赔偿 30 亿美元。
🔑 关键信息:
- 🎼 大规模盗版指控:涉及两万余首受版权保护的歌曲
- 💰 天价索赔:索赔金额可能超过 30 亿美元
- ⚖️ 合规质疑:出版商指责 Anthropic 的商业行为与其宣传的合规与伦理形象严重不符
4️⃣ 字节与阿里春节前后发布新一代大模型
字节跳动与阿里巴巴在春节前后发布新一代底层模型技术,争夺国内技术领先地位及未来云服务市场主导权。
🔑 竞争焦点:
- 🧠 字节三款核心模型:涵盖大规模语言处理、图像生成及视频生成领域
- 💻 阿里 Qwen3.5:重点提升逻辑推理、数学计算和代码编写能力
- 💰 云市场潜力:中国云市场规模预计到 2030 年将达到近 900 亿美元
📊 数据与趋势
MiniMax Music 2.5 发布
MiniMax Music 2.5 的发布标志着 AI 音乐创作在可控性和真实度上取得重大突破。
🔑 核心突破:
- 🎵 全段落掌控:支持 14 种音乐结构标签,实现精准指挥
- 🎤 真实人声质感:细腻的转音与颤音表现,支持男女对唱
- 🎹 专业级混音:内置百余种乐器音色,具备自动适配风格的混音能力
蚂蚁灵波开源世界模型 LingBot-World
蚂蚁灵波科技开源了世界模型 LingBot-World,该模型在视频质量、动态程度、长时一致性及交互能力等方面表现优异。
🔑 核心特性:
- 🌍 高保真与高动态:支持 10 分钟连续稳定生成
- 🕹️ 实时交互:实现 16FPS 生成吞吐与 1 秒内端到端交互延迟
- 🔄 Zero-shot 泛化:仅需输入真实照片或游戏截图即可生成可交互视频流
谷歌 Gemini 3.5 泄露
谷歌 Gemini 3.5 的泄露信息揭示了其在编程领域的重大突破。
🔑 核心亮点:
- 🐰 Snow Bunny 计划:单次可产出 3000 行代码
- 🧠 深度推理架构:引入”系统 2”思维和 Deep Think 切换开关
- 🚀 多模型协同:泄露信息提及 Fierce Falcon 与 Ghost Falcon 两款专项模型
🎯 编辑观察
本周具身智能领域迎来爆发式增长,蚂蚁灵波和宇树两家国内企业同时发布 VLA 大模型,标志着机器人操控技术从”规则驱动”向”模型驱动”的范式转变。同时,推理奖励模型的多个创新框架(R2M、TTCS、SSL)正在重塑 AI Agent 的优化方法论,从单纯的语义对齐向实时反馈、动态课程和分层引导演进。
多模态生成领域,腾讯混元图像 3.0 的开源进一步降低了高质量图像编辑的门槛,而商汤 SenseNova-MARS 的 Agentic VLM 能力则展示了视觉推理与搜索融合的新可能。
值得关注的是,开源社区的活跃度持续攀升,OpenClaw 一天获得 9000 星标的现象反映了开发者对本地化、隐私保护型 AI 助手的强烈需求。
本文由 AI 自动整理生成,内容来源:Huggingface Daily Papers & AI 日报
具身智能爆发:蚂蚁灵波、宇树连发 VLA 大模型,推理奖励模型引领 AI Agent 新突破
https://daily.ailab1024.com/2026/02/02/embodied-intelligence-breakthrough/