2026-02-09发表2026-02-09更新AI News

AI创新周报：无限推理突破、Transformer架构革新、移动GUI智能体基准测试

今日摘要

本周AI领域迎来多项重大突破：DeepSeek团队提出InftyThink+框架，通过强化学习实现高效的无限视野推理；研究者重新审视Transformer的MLP设计，提出沙漏型FFN架构；MemGUI-Bench首次系统性评估移动GUI智能体的记忆能力。此外，国内AI产业持续升级，可灵3.0发布、阿里千问品牌统一、上海AI实验室发布科学多模态大模型等重要进展值得关注。

🔬 最新论文

1️⃣ 🧠 InftyThink+：通过强化学习实现高效无限推理

论文链接： https://arxiv.org/abs/2602.06960

核心突破：
大型推理模型虽然通过扩展推理时思维链取得强劲性能，但面临二次成本、上下文长度限制和中间迷失效应导致的推理退化等问题。InftyThink+提出端到端强化学习框架，优化整个迭代推理轨迹。

💡 关键亮点：

✅ 在DeepSeek-R1-Distill-Qwen-1.5B上，AIME24准确率提升21%
✅ 采用两阶段训练：监督式冷启动 + 轨迹级强化学习
✅ 显著降低推理延迟，加速RL训练，实现更强性能与效率
✅ 在分布外基准测试中表现出更好的泛化能力

作者团队： Yuchen Yan, Liang Jiang, Jin Jiang等

2️⃣ 🏗️ 重新审视Transformer的形状约定：沙漏型MLP的崛起

论文链接： https://arxiv.org/abs/2602.06471

研究背景：
密集Transformer语言模型长期遵循一致的架构形状：每层由注意力模块后接窄-宽-窄MLP的前馈网络组成。本研究挑战这一传统设计，提出宽-窄-宽（沙漏型）MLP架构。

💡 核心发现：

🔄 沙漏型FFN在400M参数规模内优于传统FFN
📊 在1B参数规模达到相当性能
⚖️ 减少FFN参数、增加注意力参数的变体在相同预算下持续改进
🎯 更深但更轻的沙漏FFN可作为传统FFN的竞争性替代方案

研究意义： 促使重新思考窄-宽-窄MLP惯例以及注意力与FFN之间的平衡，为构建高效表达的现代语言模型提供新思路。

作者团队： Feng-Ting Liao, Meng-Hsi Chen等

3️⃣ 📱 MemGUI-Bench：动态环境中移动GUI智能体的记忆基准测试

论文链接： https://arxiv.org/abs/2602.06075
项目主页： https://lgy0404.github.io/MemGUI-Bench/

研究动机：
当前移动GUI智能体基准测试系统性地未能评估记忆能力，仅5.2-11.8%的任务与记忆相关，且无跨会话学习评估。

🎯 主要贡献：

系统性记忆分类法 - 分析11个智能体的5种架构
128个任务 - 覆盖26个应用，89.8%挑战跨时空记忆保持
MemGUI-Eval - 自动化评估管道，采用渐进式审查和7层级指标
RQ驱动评估 - 评估11个SOTA智能体

💡 关键发现：

⚠️ 所有评估系统均存在显著记忆缺陷
🔍 识别出5种不同的失败模式
📋 综合提出5项可操作的设计建议

开源承诺： 代码、基准测试和评估结果将完全开源并持续维护

作者团队： Guangyi Liu, Pengxiang Zhao等

📰 行业动态

🎬 可灵AI 3.0正式发布：全球首创”主体参考”功能

可灵AI 3.0的发布标志着AI视频创作进入全新时代，通过多模态输入输出一体化，重新定义AI视频创作工作流。

核心亮点：

🎥 全球首创主体参考功能 - 精准锁定主角、道具或场景特征
🎬 智能分镜与超长生成 - 实现电影感叙事
🖼️ 多语言及方言支持 - 口型、神态与音色完美同步

可灵AI 3.0

🧠 阿里大模型品牌统一为”千问”

阿里巴巴集团宣布将旗下AI技术总称及核心品牌统一为”千问”，以消除多品牌并存带来的市场认知混乱。

战略意义：

🧠 提升市场认知一致性
🌐 全球范围内统一使用英文名称 Qwen
🚀 强化国际品牌形象

⚡ Mistral AI发布Voxtral Transcribe 2语音模型

Mistral AI推出的Voxtral Transcribe 2系列针对不同应用场景优化，解决语音交互中的高延迟和成本痛点。

技术特性：

⚡ 极低延迟 - Voxtral Realtime模型延迟低于200ms，支持实时转录
🏆 高性价比 - Voxtral Mini准确率优于GPT-4o mini，支持3小时超长录音
🌐 多语支持 - 原生支持中文等13种语言

Mistral Voxtral

🔬 上海AI实验室发布书生Intern-S1-Pro

上海AI实验室发布全球开源参数规模最大的科学多模态模型”书生Intern-S1-Pro”，拥有1万亿参数。

核心优势：

✨ 全球开源参数规模最大的科学多模态模型
🧠 逻辑推理能力达到奥林匹克竞赛金牌选手水平
🚀 采用混合专家架构（MoE），优化计算效率

📈 Gemini用户量突破7.5亿

谷歌母公司Alphabet发布2025年Q4财报，AI业务表现亮眼。

重要里程碑：

📈 Gemini月活跃用户数突破7.5亿
💰 推出低价订阅方案Google AI Plus
🚀 自研芯片Ironwood推动年营收首次突破4000亿美元

🏅 米兰冬奥启用阿里”千问”官方大模型

2026年米兰冬奥会将启用阿里千问官方大模型，这是奥运史上首个官方大模型。

创新意义：

🧠 奥运史上首个官方大模型问世
📺 标志着智能奥运的开启
🚀 AI深度重塑全球顶级IP的商业逻辑

奥运AI

📊 我国生成式AI用户规模破6亿

关键数据：

📈 用户规模达6.02亿，较2024年底增长141.7%
💻 建成42个万卡智算集群，智能算力总规模超1590 EFLOPS
🚀 生成式AI成为数字化转型及经济高质量发展的重要引擎

💡 技术亮点

🔬 强化学习驱动的推理优化

InftyThink+通过端到端强化学习框架，成功解决了传统长链推理的三大痛点：

成本问题 - 二次成本增长
长度限制 - 上下文窗口限制
质量退化 - 中间迷失效应

这种创新方法为未来的推理模型优化提供了新的范式。

🏗️ Transformer架构的重新思考

沙漏型MLP的提出挑战了Transformer长期以来的架构惯例，研究表明：

更深但更轻的FFN可以达到甚至超越传统设计
注意力与FFN之间的参数平衡值得重新考虑
为构建高效表达的语言模型开辟新路径

📱 移动GUI智能体的记忆评估

MemGUI-Bench填补了移动GUI智能体评估的重要空白：

首次系统性评估记忆能力
提供跨时空、跨会话的测试场景
为未来智能体设计提供明确指导

🌟 本周总结

本周AI领域呈现出理论创新与产业应用并进的良好态势。学术界在推理优化、架构革新和评估基准方面取得重要突破，为AI系统的进一步发展奠定基础。产业界则在视频生成、语音识别、科学计算等多个领域推出重磅产品，AI技术的商业化进程持续加速。

特别值得关注的是，国内AI产业在品牌整合、算力建设、用户规模等方面均取得显著进展，为全球AI发展贡献了重要力量。

本文由AI自动整理生成，内容来源于Huggingface Daily Papers和AI日报

AI创新周报：无限推理突破、Transformer架构革新、移动GUI智能体基准测试

https://daily.ailab1024.com/2026/02/09/ai-innovations-weekly/

作者

Joker

发布于

2026-02-09

更新于

2026-02-09

许可协议

AI创新周报：无限推理突破、Transformer架构革新、移动GUI智能体基准测试

今日摘要

🔬 最新论文

1️⃣ 🧠 InftyThink+：通过强化学习实现高效无限推理

2️⃣ 🏗️ 重新审视Transformer的形状约定：沙漏型MLP的崛起

3️⃣ 📱 MemGUI-Bench：动态环境中移动GUI智能体的记忆基准测试

📰 行业动态

🎬 可灵AI 3.0正式发布：全球首创”主体参考”功能

🧠 阿里大模型品牌统一为”千问”

⚡ Mistral AI发布Voxtral Transcribe 2语音模型

🔬 上海AI实验室发布书生Intern-S1-Pro

📈 Gemini用户量突破7.5亿

🏅 米兰冬奥启用阿里”千问”官方大模型

📊 我国生成式AI用户规模破6亿

💡 技术亮点

🔬 强化学习驱动的推理优化

🏗️ Transformer架构的重新思考

📱 移动GUI智能体的记忆评估

🌟 本周总结

作者

发布于

更新于

许可协议

归档

目录