具身智能爆发:蚂蚁灵波、宇树连发 VLA 大模型,推理奖励模型引领 AI Agent 新突破

今日摘要

具身智能领域迎来重大突破!蚂蚁集团发布 LingBot-VLA 双臂机器人操控模型,宇树开源 UnifoLM-VLA-0 为人形机器人注入”物理常识”。同时,多个推理奖励模型框架(R2M、TTCS、SSL)正在重塑 AI Agent 的优化范式,标志着从语义理解向实体交互的关键跃迁。

🤖 具身智能:VLA 模型双雄并起

1️⃣ 蚂蚁集团 LingBot-VLA:双臂机器人步入”大模型时代”

蚂蚁集团发布了名为 LingBot-VLA 的视觉-语言-动作(VLA)基础模型,专注于现实世界中的机器人复杂操控。该模型通过海量数据训练,实现了在不同形态机器人上的通用操控能力。

LingBot-VLA

🔑 核心亮点:

  • 🧠 混合 Transformer 架构:以 Qwen2.5-VL 作为多模态主干,同时处理多视角图像和自然语言指令
  • 🔍 LingBot-Depth 空间感知:通过特征蒸馏技术提升 3D 空间推理能力,在叠放、插入等任务中表现优异
  • 🚀 极高数据效率:仅需约 80 条特定任务的演示数据即可快速适配新机器人
  • 📦 全套开源:已开源全套训练工具包和模型权重

📄 论文链接


2️⃣ 宇树 UnifoLM-VLA-0:为人形机器人注入”物理常识”

宇树宣布开源 UnifoLM-VLA-0 大模型,该模型专为通用人形机器人设计,标志着机器人大脑从单纯的”图文理解”向具备”物理常识”的具身智能迈出关键一步。

UnifoLM-VLA-0

🔑 核心亮点:

  • 🧠 物理世界理解:通过在机器人操作数据上的预训练,使模型理解物理世界的交互规律
  • 🌐 空间感知增强:深度融合文本指令与 2D/3D 空间细节,增强复杂环境下的空间感知能力
  • ⚙️ 动力学建模:集成动作分块预测及动力学约束,实现对长时序动作序列的统一建模

🧠 推理优化:三大框架重塑 AI Agent

3️⃣ R2M:实时对齐的推理奖励模型

来自论文《Real-Time Aligned Reward Model beyond Semantics》的 R2M 框架,通过利用策略模型的实时反馈来对齐奖励模型,有效解决了 RLHF 中的奖励过度优化问题。

💡 核心创新:

  • 📊 策略反馈机制:利用策略模型的演化隐藏状态来实时对齐奖励模型
  • 🎯 超越语义:不仅依赖语义表示,而是捕捉策略分布的实时变化
  • 🔄 缓解奖励偏差:有效减少奖励模型与策略模型之间的不匹配

📄 论文链接 | 👥 作者:Zixuan Huang 等


4️⃣ TTCS:测试时课程合成的自我进化

TTCS (Test-Time Curriculum Synthesis) 提出了一种共同进化的测试时训练框架,通过动态生成问题变体来构建个性化课程。

💡 核心创新:

  • 📚 动态课程生成:问题合成器根据求解器当前能力生成渐进式挑战问题
  • 🔄 双策略共同进化:合成器和求解器通过迭代优化相互促进
  • 🎯 稳定性提升:合成问题扩充训练集,避免测试时训练的不稳定性

📄 论文链接 | 🔗 代码


5️⃣ SSL:差异化引导的甜点学习

SSL (Sweet Spot Learning) 受网球”甜点区”概念启发,为 Agent 优化提供分层奖励引导。

💡 核心创新:

  • 🎾 甜点区原理:通过渐进放大的分层奖励引导策略向解空间的最优区域移动
  • 📏 距离分层建模:视觉感知任务奖励接近度,复杂推理任务奖励增量进步
  • 📈 理论保证:证明 SSL 保持最优解排序并增强梯度信噪比

📄 论文链接 | 👥 作者:Jinyang Wu 等


🎨 多模态生成:腾讯混元图像 3.0 领跑

6️⃣ 腾讯混元图像 3.0:全球最强开源图生图模型

腾讯混元团队正式开源了 混元图像 3.0 图生图模型,凭借 80B 参数的混合专家架构,在全球影像编辑榜单中位列第七,成为目前全球最强的开源图生图模型。

混元图像 3.0

🔑 核心亮点:

  • 🧠 原生多模态架构:实现文本与视觉理解深度融合
  • 🎨 多种编辑功能:支持增删改、风格变换、老照片修复等
  • 📦 完全开源:已开源模型权重及完整代码,降低开发者使用门槛

🔗 体验地址


🔬 最新论文速递

7️⃣ ASTRA:自动化 Agent 训练框架

ASTRA 提供了一个端到端的自动化框架,用于训练工具增强的语言模型 Agent,通过可验证的强化学习实现规模化数据合成。

💡 核心特性:

  • 🌲 工具调用图合成:利用工具调用图的静态拓扑合成多样化轨迹
  • 🎮 环境合成框架:将分解的问答轨迹转换为可执行、可验证的环境
  • 🔄 统一训练方法:整合 SFT 与在线 RL,平衡任务完成与交互效率

📄 论文链接 | 🔗 代码


8️⃣ 其他重要论文

📌 Latent Chain-of-Thought as Planning

  • 将潜在推理重新定义为规划问题,解耦推理与语言化
  • 支持动态确定推理终止,无需固定超参数
  • 📄 论文链接

📌 DreamActor-M2:通用角色图像动画

  • 通过时空上下文学习实现通用角色动画
  • 无需显式姿态先验,支持任意非人形角色
  • 📄 论文链接 | 🌐 项目页面

📌 DenseGRPO:从稀疏到密集奖励

  • 为流匹配模型对齐提供密集奖励
  • 提出奖励感知的探索空间校准方案
  • 📄 论文链接

📰 行业动态

9️⃣ Clawd 更名为 OpenClaw:开源 AI 助手爆火

开源个人 AI 助手项目经历了从 Clawd 到 Moltbot 再到 OpenClaw 的更名历程,GitHub 星标突破 10 万,引爆社区。

OpenClaw

🔑 核心特性:

  • 🧩 开源与社区驱动:强调开源特性和社区参与
  • 🚀 功能强大:GitHub 星标数突破 10 万,注重隐私保护
  • 🔒 安全性强化:持续强化安全措施,探索维护者薪酬机制

🔗 GitHub 仓库


🔟 商汤 SenseNova-MARS:Agentic VLM 开源

商汤科技正式开源了首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型 SenseNova-MARS,在多个榜单中超越了 GPT-5.2。

🔑 核心能力:

  • 🧠 动态视觉推理:支持视觉推理与图文搜索的深度融合
  • 📊 性能优异:在 MMSearch 和 HR-MMSearch 等评测中表现优异
  • 🛠️ 自主规划:通过双阶段训练赋予 AI 自主规划和复杂任务处理能力

💡 技术亮点

1️⃣ 腾讯”元宝派”内测泄露

腾讯 AI 助手”元宝”的社交功能”元宝派”因公测版本截图泄露引发关注,新增”一起听音乐”与”一起看视频”功能。

元宝派

🔑 核心功能:

  • 🎧 娱乐整合:集成 QQ 音乐与腾讯视频资源,支持同步观影和听歌
  • 🤝 跨平台社交:实现微信与 QQ 好友跨平台社交整合
  • 🤖 AI 群聊助手:提供智能总结、任务监督及冷场调节

2️⃣ 马斯克加码 AI:xAI 计划推出生成式游戏

马斯克对 xAI 的愿景充满信心,计划在明年推出实时生成、高画质且高度个性化的影视内容和电子游戏。

🔑 愿景要点:

  • 🎮 AI 生成游戏:预测 xAI 将在 2025 年推出 AI 生成游戏
  • 🖼️ 实时生成:强调游戏和影视内容将实现实时生成、高画质和高度个性化
  • 🤔 挑战与质疑:当前尚未有令人印象深刻的纯 AI 生成游戏实机演示

3️⃣ Anthropic 遭音乐出版商起诉

音乐出版商起诉 Anthropic,指控其在训练 AI 模型过程中存在大规模盗版行为,并要求赔偿 30 亿美元。

🔑 关键信息:

  • 🎼 大规模盗版指控:涉及两万余首受版权保护的歌曲
  • 💰 天价索赔:索赔金额可能超过 30 亿美元
  • ⚖️ 合规质疑:出版商指责 Anthropic 的商业行为与其宣传的合规与伦理形象严重不符

4️⃣ 字节与阿里春节前后发布新一代大模型

字节跳动与阿里巴巴在春节前后发布新一代底层模型技术,争夺国内技术领先地位及未来云服务市场主导权。

🔑 竞争焦点:

  • 🧠 字节三款核心模型:涵盖大规模语言处理、图像生成及视频生成领域
  • 💻 阿里 Qwen3.5:重点提升逻辑推理、数学计算和代码编写能力
  • 💰 云市场潜力:中国云市场规模预计到 2030 年将达到近 900 亿美元

📊 数据与趋势

MiniMax Music 2.5 发布

MiniMax Music 2.5 的发布标志着 AI 音乐创作在可控性和真实度上取得重大突破。

🔑 核心突破:

  • 🎵 全段落掌控:支持 14 种音乐结构标签,实现精准指挥
  • 🎤 真实人声质感:细腻的转音与颤音表现,支持男女对唱
  • 🎹 专业级混音:内置百余种乐器音色,具备自动适配风格的混音能力

蚂蚁灵波开源世界模型 LingBot-World

蚂蚁灵波科技开源了世界模型 LingBot-World,该模型在视频质量、动态程度、长时一致性及交互能力等方面表现优异。

🔑 核心特性:

  • 🌍 高保真与高动态:支持 10 分钟连续稳定生成
  • 🕹️ 实时交互:实现 16FPS 生成吞吐与 1 秒内端到端交互延迟
  • 🔄 Zero-shot 泛化:仅需输入真实照片或游戏截图即可生成可交互视频流

谷歌 Gemini 3.5 泄露

谷歌 Gemini 3.5 的泄露信息揭示了其在编程领域的重大突破。

🔑 核心亮点:

  • 🐰 Snow Bunny 计划:单次可产出 3000 行代码
  • 🧠 深度推理架构:引入”系统 2”思维和 Deep Think 切换开关
  • 🚀 多模型协同:泄露信息提及 Fierce Falcon 与 Ghost Falcon 两款专项模型

🎯 编辑观察

本周具身智能领域迎来爆发式增长,蚂蚁灵波和宇树两家国内企业同时发布 VLA 大模型,标志着机器人操控技术从”规则驱动”向”模型驱动”的范式转变。同时,推理奖励模型的多个创新框架(R2M、TTCS、SSL)正在重塑 AI Agent 的优化方法论,从单纯的语义对齐向实时反馈、动态课程和分层引导演进。

多模态生成领域,腾讯混元图像 3.0 的开源进一步降低了高质量图像编辑的门槛,而商汤 SenseNova-MARS 的 Agentic VLM 能力则展示了视觉推理与搜索融合的新可能。

值得关注的是,开源社区的活跃度持续攀升,OpenClaw 一天获得 9000 星标的现象反映了开发者对本地化、隐私保护型 AI 助手的强烈需求。


本文由 AI 自动整理生成,内容来源:Huggingface Daily Papers & AI 日报

具身智能爆发:蚂蚁灵波、宇树连发 VLA 大模型,推理奖励模型引领 AI Agent 新突破

https://daily.ailab1024.com/2026/02/02/embodied-intelligence-breakthrough/

作者

Joker

发布于

2026-02-02

更新于

2026-02-02

许可协议