AI新突破:支付宝AI眼镜扫福上线,OpenAI发布Codex桌面版,蚂蚁灵波开源VLA模型引领具身智能新时代

今日摘要

本周AI领域动态频繁:支付宝创新推出AI眼镜扫福体验,OpenAI发布macOS版Codex桌面应用深度整合智能体开发,蚂蚁灵波开源LingBot-VLA和世界模型推动具身智能发展,GPT-5.2、Qwen3等主流大模型迎来性能升级。同时,学术界在长上下文推理、软件工程智能体等方向取得重要进展。

🚀 产品与应用动态

1. 支付宝首次上线AI眼镜扫福功能

📌 核心亮点

支付宝在2026年春节推出创新的AI眼镜扫福功能,通过无手机操作和智能交互显著提升用户体验。

💡 主要特性:

  • 👁️‍🗨️ 无手机操作:用户只需佩戴兼容的AI眼镜,目光注视”福”字即可自动识别
  • 🤖 智能交互:配合简单语音指令,自动完成扫码并发放福卡至支付宝账户
  • 🛍️ 玩法升级:识别范围扩展至创意”马”字、游戏角色等多种元素

这一创新标志着AR技术与传统文化活动的深度融合,为用户带来全新的节日互动体验。


2. OpenAI推出macOS版Codex桌面应用

📌 核心亮点

OpenAI发布适用于macOS系统的Codex桌面应用,深度整合”智能体化软件开发”逻辑,为开发者提供更灵活高效的AI原生编程环境。

Codex桌面应用

💡 核心能力:

  • 💻 多智能体并行作业:融合不同AI智能体的专项能力处理复杂开发流程
  • 🚀 GPT-5.2-Codex驱动:号称能在数小时内辅助开发出复杂软件系统
  • ⚔️ 对标Claude Code:通过更灵活的交互界面吸引追求极致开发效率的程序员

🔗 相关链接详细介绍


3. 昆仑万维发布天工Skywork桌面版

📌 核心亮点

昆仑万维推出”天工Skywork桌面版”,打造个人电脑的”最强AI大脑”,通过极致的本地化处理能力彻底改写桌面办公的智能化定义。

💡 核心特性:

  • 🧠 本地执行:所有任务在本地虚拟机中进行,确保敏感文件不离机
  • ⚙️ 顶级模型自由选:支持Claude Opus4.5、Sonnet4.5、Gemini3Pro等全球顶尖模型自由切换
  • 🎨 多格式全覆盖:深度处理图片、视频、表格等各种复杂文件格式

🔬 最新论文研究

1. LycheeDecode:混合头稀疏解码加速长上下文LLM推理

📄 论文标题:LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

🔗 论文链接https://arxiv.org/abs/2602.04541

📝 研究简介

该研究针对长上下文大语言模型推理中的关键瓶颈——快速扩张的键值缓存,提出了LycheeDecode方法。

💡 核心创新:

  • 🧠 混合头注意力机制:将注意力头分为检索头和稀疏头,前者动态识别关键token,后者复用这些token进行高效计算
  • 硬件高效的top-k选择策略:显著降低延迟,提高响应速度
  • 🚀 性能提升:在128K上下文长度下实现高达2.7倍的加速,同时保持甚至超越全注意力基线的生成质量

作者:Gang Lin, Dongfang Li, Zhuoen Chen等


2. Parallel-Probe:通过2D探测实现高效并行推理

📄 论文标题:Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing

🔗 论文链接https://arxiv.org/abs/2602.03845

📝 研究简介

该研究引入2D探测接口,通过周期性地从所有分支获取中间答案来揭示并行思维的宽度-深度动态。

💡 核心贡献:

  • 📊 关键洞察:发现跨宽度-深度分配的非单调缩放、异构推理分支长度和全局共识的早期稳定
  • 🎯 Parallel-Probe框架:采用基于共识的早停和基于偏差的分支修剪动态调整推理
  • 💰 效率提升:相比标准多数投票,减少高达35.8%的顺序token和25.8%的总token成本

作者:Tong Zheng, Chengsong Huang, Runpeng Dai等


3. SWE-World & SWE-Master:Docker-free软件工程智能体

📄 论文1:SWE-World: Building Software Engineering Agents in Docker-Free Environments
🔗 链接https://arxiv.org/abs/2602.03419

📄 论文2:SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training
🔗 链接https://arxiv.org/abs/2602.03411

📝 研究简介

这两篇论文提出了突破性的软件工程智能体训练和评估框架,解决了传统方法依赖Docker容器的资源密集问题。

💡 SWE-World核心创新:

  • 🔄 学习代理环境:用LLM训练的代理模型替代物理执行环境
  • 效率提升:消除了环境构建和维护的成本
  • 🎯 测试时扩展:能够模拟多个候选轨迹的最终评估结果

💡 SWE-Master核心创新:

  • 📚 系统化训练流程:包括教师轨迹合成、长时域SFT、带真实执行反馈的RL
  • 🏆 卓越性能:在SWE-bench Verified上使用Qwen2.5-Coder-32B达到61.4%解决率
  • 🚀 测试时扩展:结合TTS@8达到70.8%的性能

作者:Shuang Sun, Huatong Song等


4. Gemini科研加速案例研究

📄 论文标题:Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

🔗 论文链接https://arxiv.org/abs/2602.03837

📝 研究简介

该研究展示了Google的Gemini模型(特别是Gemini Deep Think)如何协助研究人员解决开放问题、反驳猜想并在理论计算机科学等领域生成新证明。

💡 核心方法:

  • 🔄 迭代精炼:通过多轮对话逐步完善解决方案
  • 🧩 问题分解:将复杂问题拆解为可管理的子问题
  • 🔍 严格审查:部署模型作为对抗性审查者检测证明中的细微缺陷
  • 🔁 神经符号循环:自主编写和执行代码验证复杂推导

这些案例突出了AI不仅是自动化工具,更是科学发现创造过程中的多功能真正合作伙伴。

作者:David P. Woodruff, Vincent Cohen-Addad等


🤖 具身智能与机器人

1. 蚂蚁灵波开源LingBot-VLA模型

📌 核心亮点

蚂蚁集团发布首个支持动态视觉推理与图文搜索深度融合的Agentic VLM模型——LingBot-VLA,专注于现实世界中的机器人复杂操控。

LingBot-VLA

💡 核心技术:

  • 🤖 混合Transformer架构:以Qwen2.5-VL作为多模态主干,同时处理多视角图像和自然语言指令
  • 🔍 LingBot-Depth空间感知:通过特征蒸馏技术提升3D空间推理能力
  • 🚀 高数据效率:仅需约80条特定任务演示数据即可快速适配新机器人

🔗 论文链接https://arxiv.org/pdf/2601.18692


2. 蚂蚁灵波开源世界模型LingBot-World

📌 核心亮点

蚂蚁灵波科技开源世界模型LingBot-World,在视频质量、动态程度、长时一致性及交互能力等方面表现优异。

LingBot-World

💡 核心能力:

  • 🌍 高保真与高动态:支持10分钟连续稳定生成
  • 🕹️ 实时交互:实现16FPS生成吞吐与1秒内端到端交互延迟
  • 🔄 Zero-shot泛化:仅需输入真实照片或游戏截图即可生成可交互视频流

该模型可为具身智能、自动驾驶和游戏开发提供高保真的数字演练场。


3. 宇树开源UnifoLM-VLA-0大模型

📌 核心亮点

宇树宣布开源UnifoLM-VLA-0大模型,专为通用人形机器人设计,标志着机器人大脑从单纯的”图文理解”向具备”物理常识”的具身智能迈出关键一步。

UnifoLM

💡 核心特性:

  • 🧠 物理常识注入:通过机器人操作数据预训练,理解物理世界交互规律
  • 🌐 深度空间融合:融合文本指令与2D/3D空间细节,增强复杂环境感知
  • ⚙️ 动作序列建模:集成动作分块预测及动力学约束,统一建模长时序动作

💻 大模型技术更新

1. GPT-5.2系列推理速度提升40%

📌 更新亮点

OpenAI宣布其旗舰AI模型GPT-5.2和GPT-5.2-Codex的推理速度提升了40%,这一改进源于对推理堆栈的优化。

💡 核心优势:

  • 🧠 推理加速:通过优化推理堆栈降低延迟,提高响应速度
  • 🚀 无需调整:保持相同模型架构和权重,开发者无需做任何调整
  • 💰 价格不变:性能提升的同时价格保持不变,提供更高成本效益

2. 阿里发布Qwen3-Max-Thinking推理模型

📌 核心亮点

阿里巴巴发布Qwen3-Max-Thinking,该模型在复杂推理、事实知识及智能体能力等核心维度实现跨越式升级,参数量突破万亿大关。

Qwen3-Max-Thinking

💡 核心能力:

  • 🧠 万亿级参数推理:通过更大规模强化学习与测试时扩展技术提升性能
  • 🤖 原生智能体能力:自适应工具调用,根据任务需求自主选择搜索引擎或代码解释器
  • 🚀 对标国际顶流:在19项权威测试中性能媲美GPT-5.2和Claude-4.5

3. 智谱发布0.9B轻量级GLM-OCR

📌 核心亮点

智谱发布的GLM-OCR模型以0.9B参数规模实现了跨级性能突破,在多项权威基准测试中登顶。

💡 核心优势:

  • 🧠 SOTA性能:在0.9B参数下超越多个权威基准测试
  • 📄 复杂文档优化:支持表格、结构化提取、手写体等高难度任务
  • 💰 成本极低:API价格仅为传统方案的1/10,处理千张A4扫描件仅需0.5元

🎨 多模态与创作工具

1. MiniMax Music 2.5发布

📌 核心亮点

MiniMax Music 2.5的发布标志着AI音乐创作在可控性和真实度上取得重大突破。

MiniMax Music

💡 核心创新:

  • 🎵 全段落掌控:支持14种音乐结构标签,从”随机生成”转向”精准指挥”
  • 🎤 真实人声质感:细腻的转音与颤音表现,支持男女对唱自然协同
  • 🎹 专业级混音:内置百余种乐器音色,具备自动适配风格的混音能力

2. 腾讯混元图像3.0图生图模型

📌 核心亮点

腾讯混元图像3.0图生图模型凭借强大的语义理解与推理能力,为用户提供高效的图像编辑和多图融合功能。

混元图像3.0

💡 核心能力:

  • 🖼️ 80余种细分任务:提供多样化的创作能力
  • 🧠 卓越语义理解:精准识别需要修改与保留的区域
  • 🔄 深度融合:支持图片精修、风格变换及深度融合

3. 昆仑万维SkyReels-V3开源

📌 核心亮点

昆仑万维SkyReels-V3开源,标志着视频生成技术进入高保真、多模态的新阶段。

💡 核心能力:

  • 🎥 参考图像转视频:支持1至4张参考图输入,精准保留主体身份特征
  • 🎞 镜头切换延长:实现逻辑的”叙事扩展”
  • 🎙 音频驱动虚拟形象:实现极高口型同步率,支持分钟级长视频生成

🔗 GitHub链接https://github.com/SkyworkAI/SkyReels-V3


🔐 安全与合规

1. OpenClaw被曝严重漏洞

⚠️ 安全警告

爆火AI智能体OpenClaw存在严重漏洞,攻击者利用其漏洞对macOS用户发起恶意软件攻击。

OpenClaw漏洞

🚨 威胁详情:

  • 🧬 攻击手段:黑客通过伪装”技能”文件诱导用户执行恶意Shell命令
  • ⚠️ 数据威胁:病毒专注于静默窃取密码、会话Cookie及开发者API令牌
  • 🛡️ 防护建议:警惕非官方渠道的集成脚本,避免权限失控

专家提醒用户警惕非官方渠道的集成脚本,以防止权限失控和敏感数据泄露。


2. 微信发布春节营销整治公告

📢 平台治理

微信官方发布公告,针对腾讯旗下AI应用”元宝”的春节营销活动进行处罚,因其通过诱导分享行为干扰平台生态秩序。

🍎 处罚原因:

  • 通过”做任务”、”领红包”等手段诱导用户分享至微信群
  • 🚫 微信官方依据规范对”元宝”App违规链接采取处置措施
  • 📢 微信强调将持续监控营销活动并严格执行平台规则

📊 行业动态

1. Anthropic计划回购3500亿美元股权

💰 融资动态

Anthropic宣布了一项重大计划,准备以至少3500亿美元的估值进行员工股权要约收购,同时寻求筹集高达200亿美元的资金。

核心要点:

  • 💼 允许员工套现部分股权
  • 📈 公司计划筹集高达200亿美元资金
  • 🚀 此举有助于提升公司整体估值并为长期发展奠定基础

2. 港股大模型概念股强势走高

📈 市场表现

港股大模型概念股强势走高,MINIMAX-WP股价破纪录,智谱紧随其后。

市场亮点:

  • 🧠 MINIMAX-WP股价突破历史高点,涨幅超14%
  • 📈 智谱午后涨幅超过11%,表现稳健
  • 💡 AI大模型在春节红包及社交场景竞争加剧

🎯 其他重要进展

1. Kimi K2.5上线

📌 核心更新

Kimi K2.5的发布标志着Moonshot AI在AI领域的持续发力,其视觉与工具调用功能的升级显著提升了模型的实用性。

💡 核心升级:

  • 🧠 新增视觉能力,支持图像分析和3D模型生成
  • 🛠️ 工具调用功能提升,更接近”代理式智能”
  • 🚀 用户反馈性能惊艳,开源期待高涨

2. 火狐Firefox 148浏览器即将上线

📌 核心功能

Mozilla在Firefox 148浏览器中引入了全新的”AI控制”面板,为用户提供对生成式AI功能的选择权。

Firefox AI控制

💡 核心特性:

  • 🛡️ 一键彻底屏蔽所有AI功能及相关推广弹窗
  • 🧩 用户可独立控制智能翻译、PDF图像描述、标签页智能分组等五大AI组件
  • 🤖 侧边栏机器人支持接入ChatGPT、Claude、Copilot、Gemini及Mistral等多种顶尖AI模型

3. 京东购物智能体JoyGlance登陆乐奇AI眼镜

📌 全球首创

京东科技旗下购物智能体JoyGlance正式上线乐奇Rokid智能眼镜,标志着全球首款智能眼镜购物应用进入实际可用阶段。

💡 核心体验:

  • 🛒 购物流程简化为”说、看、付”
  • 🔊 用户可通过语音指令完成购物流程
  • 🔒 采用”语音识别+声纹识别”金融级安全方案保障支付安全

📚 学术前沿

AOrchestra:自动化子智能体创建的智能体编排

📄 论文链接https://arxiv.org/abs/2602.03786

核心创新:

  • 🧠 统一智能体抽象:将任何智能体建模为(Instruction, Context, Tools, Model)元组
  • 🎯 动态智能体生成:中央编排器根据任务需求即时创建专门的执行器
  • 🚀 性能提升:在GAIA、SWE-Bench、Terminal-Bench上相比最强基线实现16.28%相对改进

FullStack-Agent:开发导向测试和仓库反向翻译

📄 论文链接https://arxiv.org/abs/2602.03798

核心创新:

  • 🌐 多智能体框架:具备强大的规划、代码编辑、代码库导航和错误定位能力
  • 📚 创新数据扩展:通过反向翻译爬取和合成的网站仓库来改进骨干LLM
  • 🏆 性能优异:在前端、后端和数据库测试用例上分别超越SOTA方法8.7%、38.2%和15.9%

MedSAM-Agent:多轮智能体强化学习赋能交互式医学图像分割

📄 论文链接https://arxiv.org/abs/2602.03320

核心创新:

  • 🤖 将交互式分割重塑为多步自主决策过程
  • 🔄 混合提示策略用于专家策划的轨迹生成
  • 🏥 两阶段训练流程整合多轮端到端结果验证与临床保真度过程奖励设计

💭 总结与展望

本周AI领域呈现出以下几个显著趋势:

  1. 🤖 具身智能加速发展:蚂蚁灵波、宇树等机构开源多个VLA模型和世界模型,推动机器人智能化进程

  2. 💻 开发工具智能化升级:OpenAI Codex、Kimi Code等编程助手持续演进,软件工程智能体研究取得重要突破

  3. 🎨 多模态创作能力提升:从音乐生成到图像编辑,AI创作工具在可控性和质量上都有显著进步

  4. 📱 AI与日常生活深度融合:支付宝AI眼镜扫福、京东智能眼镜购物等应用展示了AI技术的实用化趋势

  5. 🔐 安全与合规日益重要:OpenClaw漏洞事件和微信平台治理提醒我们关注AI应用的安全性

随着技术的不断进步,AI正在从实验室走向千家万户,从辅助工具演变为真正的智能伙伴。未来值得期待!


本文由AI自动整理生成,内容来源于Huggingface Daily Papers和AI日报

AI新突破:支付宝AI眼镜扫福上线,OpenAI发布Codex桌面版,蚂蚁灵波开源VLA模型引领具身智能新时代

https://daily.ailab1024.com/2026/02/05/ai-breakthroughs-feb-2026/

作者

Joker

发布于

2026-02-05

更新于

2026-02-05

许可协议