2026-02-02发表2026-02-02更新AI News

具身智能爆发：蚂蚁灵波、宇树连发 VLA 大模型，推理奖励模型引领 AI Agent 新突破

今日摘要

具身智能领域迎来重大突破！蚂蚁集团发布 LingBot-VLA 双臂机器人操控模型，宇树开源 UnifoLM-VLA-0 为人形机器人注入”物理常识”。同时，多个推理奖励模型框架（R2M、TTCS、SSL）正在重塑 AI Agent 的优化范式，标志着从语义理解向实体交互的关键跃迁。

🤖 具身智能：VLA 模型双雄并起

1️⃣ 蚂蚁集团 LingBot-VLA：双臂机器人步入”大模型时代”

蚂蚁集团发布了名为 LingBot-VLA 的视觉-语言-动作（VLA）基础模型，专注于现实世界中的机器人复杂操控。该模型通过海量数据训练，实现了在不同形态机器人上的通用操控能力。

LingBot-VLA

🔑 核心亮点：

🧠 混合 Transformer 架构：以 Qwen2.5-VL 作为多模态主干，同时处理多视角图像和自然语言指令
🔍 LingBot-Depth 空间感知：通过特征蒸馏技术提升 3D 空间推理能力，在叠放、插入等任务中表现优异
🚀 极高数据效率：仅需约 80 条特定任务的演示数据即可快速适配新机器人
📦 全套开源：已开源全套训练工具包和模型权重

📄 论文链接

2️⃣ 宇树 UnifoLM-VLA-0：为人形机器人注入”物理常识”

宇树宣布开源 UnifoLM-VLA-0 大模型，该模型专为通用人形机器人设计，标志着机器人大脑从单纯的”图文理解”向具备”物理常识”的具身智能迈出关键一步。

UnifoLM-VLA-0

🔑 核心亮点：

🧠 物理世界理解：通过在机器人操作数据上的预训练，使模型理解物理世界的交互规律
🌐 空间感知增强：深度融合文本指令与 2D/3D 空间细节，增强复杂环境下的空间感知能力
⚙️ 动力学建模：集成动作分块预测及动力学约束，实现对长时序动作序列的统一建模

🧠 推理优化：三大框架重塑 AI Agent

3️⃣ R2M：实时对齐的推理奖励模型

来自论文《Real-Time Aligned Reward Model beyond Semantics》的 R2M 框架，通过利用策略模型的实时反馈来对齐奖励模型，有效解决了 RLHF 中的奖励过度优化问题。

💡 核心创新：

📊 策略反馈机制：利用策略模型的演化隐藏状态来实时对齐奖励模型
🎯 超越语义：不仅依赖语义表示，而是捕捉策略分布的实时变化
🔄 缓解奖励偏差：有效减少奖励模型与策略模型之间的不匹配

📄 论文链接 | 👥 作者：Zixuan Huang 等

4️⃣ TTCS：测试时课程合成的自我进化

TTCS (Test-Time Curriculum Synthesis) 提出了一种共同进化的测试时训练框架，通过动态生成问题变体来构建个性化课程。

💡 核心创新：

📚 动态课程生成：问题合成器根据求解器当前能力生成渐进式挑战问题
🔄 双策略共同进化：合成器和求解器通过迭代优化相互促进
🎯 稳定性提升：合成问题扩充训练集，避免测试时训练的不稳定性

📄 论文链接 | 🔗 代码

5️⃣ SSL：差异化引导的甜点学习

SSL (Sweet Spot Learning) 受网球”甜点区”概念启发，为 Agent 优化提供分层奖励引导。

💡 核心创新：

🎾 甜点区原理：通过渐进放大的分层奖励引导策略向解空间的最优区域移动
📏 距离分层建模：视觉感知任务奖励接近度，复杂推理任务奖励增量进步
📈 理论保证：证明 SSL 保持最优解排序并增强梯度信噪比

📄 论文链接 | 👥 作者：Jinyang Wu 等

🎨 多模态生成：腾讯混元图像 3.0 领跑

6️⃣ 腾讯混元图像 3.0：全球最强开源图生图模型

腾讯混元团队正式开源了 混元图像 3.0 图生图模型，凭借 80B 参数的混合专家架构，在全球影像编辑榜单中位列第七，成为目前全球最强的开源图生图模型。

混元图像 3.0

🔑 核心亮点：

🧠 原生多模态架构：实现文本与视觉理解深度融合
🎨 多种编辑功能：支持增删改、风格变换、老照片修复等
📦 完全开源：已开源模型权重及完整代码，降低开发者使用门槛

🔗 体验地址

🔬 最新论文速递

7️⃣ ASTRA：自动化 Agent 训练框架

ASTRA 提供了一个端到端的自动化框架，用于训练工具增强的语言模型 Agent，通过可验证的强化学习实现规模化数据合成。

💡 核心特性：

🌲 工具调用图合成：利用工具调用图的静态拓扑合成多样化轨迹
🎮 环境合成框架：将分解的问答轨迹转换为可执行、可验证的环境
🔄 统一训练方法：整合 SFT 与在线 RL，平衡任务完成与交互效率

📄 论文链接 | 🔗 代码

8️⃣ 其他重要论文

📌 Latent Chain-of-Thought as Planning

将潜在推理重新定义为规划问题，解耦推理与语言化
支持动态确定推理终止，无需固定超参数
📄 论文链接

📌 DreamActor-M2：通用角色图像动画

通过时空上下文学习实现通用角色动画
无需显式姿态先验，支持任意非人形角色
📄 论文链接 | 🌐 项目页面

📌 DenseGRPO：从稀疏到密集奖励

为流匹配模型对齐提供密集奖励
提出奖励感知的探索空间校准方案
📄 论文链接

📰 行业动态

9️⃣ Clawd 更名为 OpenClaw：开源 AI 助手爆火

开源个人 AI 助手项目经历了从 Clawd 到 Moltbot 再到 OpenClaw 的更名历程，GitHub 星标突破 10 万，引爆社区。

OpenClaw

🔑 核心特性：

🧩 开源与社区驱动：强调开源特性和社区参与
🚀 功能强大：GitHub 星标数突破 10 万，注重隐私保护
🔒 安全性强化：持续强化安全措施，探索维护者薪酬机制

🔗 GitHub 仓库

🔟 商汤 SenseNova-MARS：Agentic VLM 开源

商汤科技正式开源了首个支持动态视觉推理与图文搜索深度融合的 Agentic VLM 模型 SenseNova-MARS，在多个榜单中超越了 GPT-5.2。

🔑 核心能力：

🧠 动态视觉推理：支持视觉推理与图文搜索的深度融合
📊 性能优异：在 MMSearch 和 HR-MMSearch 等评测中表现优异
🛠️ 自主规划：通过双阶段训练赋予 AI 自主规划和复杂任务处理能力

💡 技术亮点

1️⃣ 腾讯”元宝派”内测泄露

腾讯 AI 助手”元宝”的社交功能”元宝派”因公测版本截图泄露引发关注，新增”一起听音乐”与”一起看视频”功能。

元宝派

🔑 核心功能：

🎧 娱乐整合：集成 QQ 音乐与腾讯视频资源，支持同步观影和听歌
🤝 跨平台社交：实现微信与 QQ 好友跨平台社交整合
🤖 AI 群聊助手：提供智能总结、任务监督及冷场调节

2️⃣ 马斯克加码 AI：xAI 计划推出生成式游戏

马斯克对 xAI 的愿景充满信心，计划在明年推出实时生成、高画质且高度个性化的影视内容和电子游戏。

🔑 愿景要点：

🎮 AI 生成游戏：预测 xAI 将在 2025 年推出 AI 生成游戏
🖼️ 实时生成：强调游戏和影视内容将实现实时生成、高画质和高度个性化
🤔 挑战与质疑：当前尚未有令人印象深刻的纯 AI 生成游戏实机演示

3️⃣ Anthropic 遭音乐出版商起诉

音乐出版商起诉 Anthropic，指控其在训练 AI 模型过程中存在大规模盗版行为，并要求赔偿 30 亿美元。

🔑 关键信息：

🎼 大规模盗版指控：涉及两万余首受版权保护的歌曲
💰 天价索赔：索赔金额可能超过 30 亿美元
⚖️ 合规质疑：出版商指责 Anthropic 的商业行为与其宣传的合规与伦理形象严重不符

4️⃣ 字节与阿里春节前后发布新一代大模型

字节跳动与阿里巴巴在春节前后发布新一代底层模型技术，争夺国内技术领先地位及未来云服务市场主导权。

🔑 竞争焦点：

🧠 字节三款核心模型：涵盖大规模语言处理、图像生成及视频生成领域
💻 阿里 Qwen3.5：重点提升逻辑推理、数学计算和代码编写能力
💰 云市场潜力：中国云市场规模预计到 2030 年将达到近 900 亿美元

📊 数据与趋势

MiniMax Music 2.5 发布

MiniMax Music 2.5 的发布标志着 AI 音乐创作在可控性和真实度上取得重大突破。

🔑 核心突破：

🎵 全段落掌控：支持 14 种音乐结构标签，实现精准指挥
🎤 真实人声质感：细腻的转音与颤音表现，支持男女对唱
🎹 专业级混音：内置百余种乐器音色，具备自动适配风格的混音能力

蚂蚁灵波开源世界模型 LingBot-World

蚂蚁灵波科技开源了世界模型 LingBot-World，该模型在视频质量、动态程度、长时一致性及交互能力等方面表现优异。

🔑 核心特性：

🌍 高保真与高动态：支持 10 分钟连续稳定生成
🕹️ 实时交互：实现 16FPS 生成吞吐与 1 秒内端到端交互延迟
🔄 Zero-shot 泛化：仅需输入真实照片或游戏截图即可生成可交互视频流

谷歌 Gemini 3.5 泄露

谷歌 Gemini 3.5 的泄露信息揭示了其在编程领域的重大突破。

🔑 核心亮点：

🐰 Snow Bunny 计划：单次可产出 3000 行代码
🧠 深度推理架构：引入”系统 2”思维和 Deep Think 切换开关
🚀 多模型协同：泄露信息提及 Fierce Falcon 与 Ghost Falcon 两款专项模型

🎯 编辑观察

本周具身智能领域迎来爆发式增长，蚂蚁灵波和宇树两家国内企业同时发布 VLA 大模型，标志着机器人操控技术从”规则驱动”向”模型驱动”的范式转变。同时，推理奖励模型的多个创新框架（R2M、TTCS、SSL）正在重塑 AI Agent 的优化方法论，从单纯的语义对齐向实时反馈、动态课程和分层引导演进。

多模态生成领域，腾讯混元图像 3.0 的开源进一步降低了高质量图像编辑的门槛，而商汤 SenseNova-MARS 的 Agentic VLM 能力则展示了视觉推理与搜索融合的新可能。

值得关注的是，开源社区的活跃度持续攀升，OpenClaw 一天获得 9000 星标的现象反映了开发者对本地化、隐私保护型 AI 助手的强烈需求。

本文由 AI 自动整理生成，内容来源：Huggingface Daily Papers & AI 日报

具身智能爆发：蚂蚁灵波、宇树连发 VLA 大模型，推理奖励模型引领 AI Agent 新突破

https://daily.ailab1024.com/2026/02/02/embodied-intelligence-breakthrough/

作者

Joker

发布于

2026-02-02

更新于

2026-02-02

许可协议

具身智能爆发：蚂蚁灵波、宇树连发 VLA 大模型，推理奖励模型引领 AI Agent 新突破

今日摘要

🤖 具身智能：VLA 模型双雄并起

1️⃣ 蚂蚁集团 LingBot-VLA：双臂机器人步入”大模型时代”

2️⃣ 宇树 UnifoLM-VLA-0：为人形机器人注入”物理常识”

🧠 推理优化：三大框架重塑 AI Agent

3️⃣ R2M：实时对齐的推理奖励模型

4️⃣ TTCS：测试时课程合成的自我进化

5️⃣ SSL：差异化引导的甜点学习

🎨 多模态生成：腾讯混元图像 3.0 领跑

6️⃣ 腾讯混元图像 3.0：全球最强开源图生图模型

🔬 最新论文速递

7️⃣ ASTRA：自动化 Agent 训练框架

8️⃣ 其他重要论文

📰 行业动态

9️⃣ Clawd 更名为 OpenClaw：开源 AI 助手爆火

🔟 商汤 SenseNova-MARS：Agentic VLM 开源

💡 技术亮点

1️⃣ 腾讯”元宝派”内测泄露

2️⃣ 马斯克加码 AI：xAI 计划推出生成式游戏

3️⃣ Anthropic 遭音乐出版商起诉

4️⃣ 字节与阿里春节前后发布新一代大模型

📊 数据与趋势

MiniMax Music 2.5 发布

蚂蚁灵波开源世界模型 LingBot-World

谷歌 Gemini 3.5 泄露

🎯 编辑观察

作者

发布于

更新于

许可协议

归档

目录