AI创新周报:无限推理突破、Transformer架构革新、移动GUI智能体基准测试
今日摘要
本周AI领域迎来多项重大突破:DeepSeek团队提出InftyThink+框架,通过强化学习实现高效的无限视野推理;研究者重新审视Transformer的MLP设计,提出沙漏型FFN架构;MemGUI-Bench首次系统性评估移动GUI智能体的记忆能力。此外,国内AI产业持续升级,可灵3.0发布、阿里千问品牌统一、上海AI实验室发布科学多模态大模型等重要进展值得关注。
🔬 最新论文
1️⃣ 🧠 InftyThink+:通过强化学习实现高效无限推理
论文链接: https://arxiv.org/abs/2602.06960
核心突破:
大型推理模型虽然通过扩展推理时思维链取得强劲性能,但面临二次成本、上下文长度限制和中间迷失效应导致的推理退化等问题。InftyThink+提出端到端强化学习框架,优化整个迭代推理轨迹。
💡 关键亮点:
- ✅ 在DeepSeek-R1-Distill-Qwen-1.5B上,AIME24准确率提升21%
- ✅ 采用两阶段训练:监督式冷启动 + 轨迹级强化学习
- ✅ 显著降低推理延迟,加速RL训练,实现更强性能与效率
- ✅ 在分布外基准测试中表现出更好的泛化能力
作者团队: Yuchen Yan, Liang Jiang, Jin Jiang等
2️⃣ 🏗️ 重新审视Transformer的形状约定:沙漏型MLP的崛起
论文链接: https://arxiv.org/abs/2602.06471
研究背景:
密集Transformer语言模型长期遵循一致的架构形状:每层由注意力模块后接窄-宽-窄MLP的前馈网络组成。本研究挑战这一传统设计,提出宽-窄-宽(沙漏型)MLP架构。
💡 核心发现:
- 🔄 沙漏型FFN在400M参数规模内优于传统FFN
- 📊 在1B参数规模达到相当性能
- ⚖️ 减少FFN参数、增加注意力参数的变体在相同预算下持续改进
- 🎯 更深但更轻的沙漏FFN可作为传统FFN的竞争性替代方案
研究意义: 促使重新思考窄-宽-窄MLP惯例以及注意力与FFN之间的平衡,为构建高效表达的现代语言模型提供新思路。
作者团队: Feng-Ting Liao, Meng-Hsi Chen等
3️⃣ 📱 MemGUI-Bench:动态环境中移动GUI智能体的记忆基准测试
论文链接: https://arxiv.org/abs/2602.06075
项目主页: https://lgy0404.github.io/MemGUI-Bench/
研究动机:
当前移动GUI智能体基准测试系统性地未能评估记忆能力,仅5.2-11.8%的任务与记忆相关,且无跨会话学习评估。
🎯 主要贡献:
- 系统性记忆分类法 - 分析11个智能体的5种架构
- 128个任务 - 覆盖26个应用,89.8%挑战跨时空记忆保持
- MemGUI-Eval - 自动化评估管道,采用渐进式审查和7层级指标
- RQ驱动评估 - 评估11个SOTA智能体
💡 关键发现:
- ⚠️ 所有评估系统均存在显著记忆缺陷
- 🔍 识别出5种不同的失败模式
- 📋 综合提出5项可操作的设计建议
开源承诺: 代码、基准测试和评估结果将完全开源并持续维护
作者团队: Guangyi Liu, Pengxiang Zhao等
📰 行业动态
🎬 可灵AI 3.0正式发布:全球首创”主体参考”功能
可灵AI 3.0的发布标志着AI视频创作进入全新时代,通过多模态输入输出一体化,重新定义AI视频创作工作流。
核心亮点:
- 🎥 全球首创主体参考功能 - 精准锁定主角、道具或场景特征
- 🎬 智能分镜与超长生成 - 实现电影感叙事
- 🖼️ 多语言及方言支持 - 口型、神态与音色完美同步

🧠 阿里大模型品牌统一为”千问”
阿里巴巴集团宣布将旗下AI技术总称及核心品牌统一为”千问”,以消除多品牌并存带来的市场认知混乱。
战略意义:
- 🧠 提升市场认知一致性
- 🌐 全球范围内统一使用英文名称 Qwen
- 🚀 强化国际品牌形象
⚡ Mistral AI发布Voxtral Transcribe 2语音模型
Mistral AI推出的Voxtral Transcribe 2系列针对不同应用场景优化,解决语音交互中的高延迟和成本痛点。
技术特性:
- ⚡ 极低延迟 - Voxtral Realtime模型延迟低于200ms,支持实时转录
- 🏆 高性价比 - Voxtral Mini准确率优于GPT-4o mini,支持3小时超长录音
- 🌐 多语支持 - 原生支持中文等13种语言

🔬 上海AI实验室发布书生Intern-S1-Pro
上海AI实验室发布全球开源参数规模最大的科学多模态模型”书生Intern-S1-Pro”,拥有1万亿参数。
核心优势:
- ✨ 全球开源参数规模最大的科学多模态模型
- 🧠 逻辑推理能力达到奥林匹克竞赛金牌选手水平
- 🚀 采用混合专家架构(MoE),优化计算效率
📈 Gemini用户量突破7.5亿
谷歌母公司Alphabet发布2025年Q4财报,AI业务表现亮眼。
重要里程碑:
- 📈 Gemini月活跃用户数突破7.5亿
- 💰 推出低价订阅方案Google AI Plus
- 🚀 自研芯片Ironwood推动年营收首次突破4000亿美元
🏅 米兰冬奥启用阿里”千问”官方大模型
2026年米兰冬奥会将启用阿里千问官方大模型,这是奥运史上首个官方大模型。
创新意义:
- 🧠 奥运史上首个官方大模型问世
- 📺 标志着智能奥运的开启
- 🚀 AI深度重塑全球顶级IP的商业逻辑

📊 我国生成式AI用户规模破6亿
关键数据:
- 📈 用户规模达6.02亿,较2024年底增长141.7%
- 💻 建成42个万卡智算集群,智能算力总规模超1590 EFLOPS
- 🚀 生成式AI成为数字化转型及经济高质量发展的重要引擎
💡 技术亮点
🔬 强化学习驱动的推理优化
InftyThink+通过端到端强化学习框架,成功解决了传统长链推理的三大痛点:
- 成本问题 - 二次成本增长
- 长度限制 - 上下文窗口限制
- 质量退化 - 中间迷失效应
这种创新方法为未来的推理模型优化提供了新的范式。
🏗️ Transformer架构的重新思考
沙漏型MLP的提出挑战了Transformer长期以来的架构惯例,研究表明:
- 更深但更轻的FFN可以达到甚至超越传统设计
- 注意力与FFN之间的参数平衡值得重新考虑
- 为构建高效表达的语言模型开辟新路径
📱 移动GUI智能体的记忆评估
MemGUI-Bench填补了移动GUI智能体评估的重要空白:
- 首次系统性评估记忆能力
- 提供跨时空、跨会话的测试场景
- 为未来智能体设计提供明确指导
🌟 本周总结
本周AI领域呈现出理论创新与产业应用并进的良好态势。学术界在推理优化、架构革新和评估基准方面取得重要突破,为AI系统的进一步发展奠定基础。产业界则在视频生成、语音识别、科学计算等多个领域推出重磅产品,AI技术的商业化进程持续加速。
特别值得关注的是,国内AI产业在品牌整合、算力建设、用户规模等方面均取得显著进展,为全球AI发展贡献了重要力量。
本文由AI自动整理生成,内容来源于Huggingface Daily Papers和AI日报
AI创新周报:无限推理突破、Transformer架构革新、移动GUI智能体基准测试
https://daily.ailab1024.com/2026/02/09/ai-innovations-weekly/