2026-02-14发表2026-02-14更新AI News

字节Seedance 2.0震撼发布，蚂蚁开源万亿参数模型Ring-2.5-1T，Gemini 3 Deep Think血洗编程榜单

今日摘要

今日AI领域迎来多项重磅发布：字节跳动Seedance 2.0实现视频生成工业级交付，蚂蚁集团开源全球首个万亿参数混合线性架构思考模型Ring-2.5-1T，Google Gemini 3 Deep Think在编程与科研领域取得突破性进展。此外，智谱GLM-5、DeepSeek上下文升级、小米机器人VLA模型等也带来重要更新。

🎬 视频生成重大突破

字节跳动 Seedance 2.0：工业级视频生成时代来临

字节跳动火山引擎即将于2月14日发布Seedance 2.0，这是一次视频生成技术的重大跃进：

核心亮点：

🎥 工业级交付：在人机交互与动态画面稳定性上达到行业领先，支持全模态输入，输出质量适配影视与广告等专业场景
🔍 实时检索增强：首次引入实时信息检索功能，确保创作内容与社会时效同步
🧠 深度意图理解：内置百科知识库，显著增强多语种处理能力

技术特性：

支持多模态文件输入，精准学习视频的运镜、动作及特效
生成音色与真人高度一致
为应对肖像隐私担忧，字节已紧急暂停真人素材参考功能

相关链接： 预计2月14日正式发布

🧠 大模型技术突破

蚂蚁集团 Ring-2.5-1T：全球首个万亿参数混合线性架构模型

蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T，为智能体时代的复杂任务处理提供高性能基础支撑。

核心优势：

📊 数学推理领先：在数学推理和代码生成任务中达到开源领先水平
⚡ 高效生成：在长文本生成场景中显著提升生成效率
🤖 智能体适配：支持多步规划与工具调用，适配多种智能体框架

技术架构：

采用混合线性架构，优化推理效率
万亿级参数规模，保持高性能表现
开源发布，推动社区发展

Google Gemini 3 Deep Think：编程与科研的”最强大脑”

Google 最新发布的 Gemini 3 Deep Think 在编程、科研和工程领域实现重大突破：

编程能力封神：

💻 在算法竞赛平台 Codeforces 上取得 3455 Elo 的惊人高分，全球仅 7 人能击败它
🏆 在编程竞赛中展现出超越人类顶尖选手的能力

科研”最强大脑”：

🔬 发现高深物理数学论文中的细微漏洞
✅ 成功证明了”Erdős 猜想”中的多个难题

工程应用突破：

🛠️ 可将手绘草图分析并渲染成高保真的3D模型文件，提升建模效率 10 倍

Gemini 3 Deep Think Performance

智谱 GLM-5：从”代码生成”迈向”工程构建”

智谱发布GLM-5，标志着大模型从代码生成迈向工程构建的Agentic Ready时代：

技术突破：

🧠 参数扩展：模型参数扩展至744B，预训练数据量提升至28.5T
🚀 异步强化学习：采用”Slime”框架与异步智能体强化学习算法，提升长程交互能力
💻 多智能体协作：支持多智能体并发完成开发全流程

产业适配：

适配国产芯片平台，推动国产化进程
性能对标行业顶尖，在编程与工程任务中表现出色

DeepSeek：上下文长度跃升至 1M Token

DeepSeek 网页端与移动应用迎来重大更新：

核心升级：

📈 上下文扩展：从128K Token提升至1M Token，处理能力提升近8倍
📚 长文档处理：能一次性处理整本长篇小说
🔮 未来展望：下一代旗舰模型 DeepSeek V4 正在研发中，规模将达到万亿参数级

应用场景：

适用于长文档分析、小说创作、法律文书处理等多种场景
提升了复杂任务的处理能力

🤖 具身智能新进展

小米 Xiaomi-Robotics-0：突破”物理智能”延迟瓶颈

小米开源首代机器人VLA大模型Xiaomi-Robotics-0，解决了现有VLA模型的推理延迟问题：

技术特点：

🧠 视觉语言大脑（VLM）：负责解析人类指令并捕捉空间关系
⚙️ 动作执行小脑（Action Expert）：通过流匹配技术生成精准动作块
🚀 实时推理：在消费级显卡上实现实时推理与高效泛化

模型规模：

47亿参数
通过两阶段训练提升响应敏捷性
开源发布，推动机器人技术发展

项目地址： https://xiaomi-robotics-0.github.io

Xiaomi Robotics VLA

GigaBrain-0.5M*：基于世界模型的 VLA 学习

GigaBrain-0.5M* 是一款通过世界模型强化学习训练的VLA模型：

核心创新：

🌍 基于GigaBrain-0.5预训练，该版本在国际RoboChallenge排名第一
🔄 通过RAMP（世界模型条件策略强化学习）实现跨任务适配
📈 在复杂任务中性能提升约30%

应用场景：

洗衣折叠、箱子打包、咖啡制作等复杂操作任务
展现可靠的长时序执行能力

项目主页： https://gigabrain05m.github.io

📰 行业动态

MiniMax M2.5：编程能力对标 Claude Opus 4.6

MiniMax 发布 M2.5 模型，在编程与智能体场景中实现重大突破：

性能亮点：

🧠 全栈编程：支持 PC、App 及跨端应用的全链路开发
⚡ 效率神话：激活参数量仅为 10B，支持 100 TPS 的超高吞吐量
💰 资本反响：市值突破 1800 亿港元，当日涨幅超过 20%

百度千帆 Coding Plan：集成主流大模型

百度千帆推出全新 AI 编码订阅服务 Coding Plan：

核心特性：

🧠 深度集成 GLM-4.7 和 DeepSeek-V3.2 等主流代码模型
🔄 支持一键切换模型，兼容 OpenAI 及 Anthropic 协议
💰 提供多种订阅方案，满足不同需求

Coding Plan

🔬 最新论文

1. Stroke of Surprise：渐进式语义错觉

研究亮点：

🎨 引入渐进式语义错觉，通过顺序添加笔画实现语义转换
🔄 双分支评分蒸馏采样（SDS）机制动态调整前缀笔画
🖼️ 创新的覆盖损失确保结构整合而非遮挡

论文链接： https://arxiv.org/abs/2602.12280

2. T3D：通过轨迹自蒸馏的少步扩散语言模型

核心贡献：

🧠 通过轨迹自蒸馏改进少步解码
🎯 引入直接判别优化（DDO），促进模式寻找蒸馏
📈 在紧张步骤预算下显著优于基线

论文链接： https://arxiv.org/abs/2602.12262

3. DeepGen 1.0：轻量级统一多模态模型

技术特点：

🧠 仅50亿参数，实现图像生成与编辑的全面能力
🎯 引入堆叠通道桥接（SCB）深度对齐框架
🚀 在WISE和UniREditBench等基准测试中表现领先

论文链接： https://arxiv.org/abs/2602.12205

4. Sci-CoE：科学推理的协同进化

研究创新：

🧠 双阶段科学协同进化框架
🎯 几何奖励机制联合考虑共识、可靠性和多样性
📊 在多个科学基准测试中显著优于基线

论文链接： https://arxiv.org/abs/2602.12164

5. dVoting：扩散大语言模型的快速投票

核心方法：

🗳️ 通过采样和一致性分析识别不确定令牌
🔄 迭代细化直至收敛
📈 在GSM8K、MATH500等基准测试中取得显著提升

论文链接： https://arxiv.org/abs/2602.12153

6. Learning beyond Teacher：广义在策略蒸馏

技术贡献：

🧠 提出广义在策略蒸馏（G-OPD）框架
🎯 引入灵活参考模型和奖励缩放因子
🚀 在数学推理和代码生成任务中表现优异

论文链接： https://arxiv.org/abs/2602.12125

7. P-GenRM：个性化生成奖励模型

创新点：

🧠 首个个性化生成奖励模型
👥 双粒度缩放机制：个人级和原型级
📈 在基准测试中平均提升2.31%

论文链接： https://arxiv.org/abs/2602.12116

💡 技术亮点

AI 安全与评估

DeepSight：全方位 LM 安全工具包

✅ 统一安全评估与诊断范式
🔍 从黑盒评估转向白盒洞察
🌐 首个支持前沿AI风险评估的开源工具包

论文链接： https://arxiv.org/abs/2602.12092

法律AI应用

LawThinker：动态环境中的深度研究法律智能体

⚖️ 探索-验证-记忆策略
🔍 DeepVerifier模块三维度检验知识准确性
📈 在J1-EVAL基准测试中提升24%

论文链接： https://arxiv.org/abs/2602.12056

强化学习优化

Composition-RL：可验证提示的组合式强化学习

🧩 自动组合多个问题创建新的可验证问题
📚 课程式变体逐步增加组合深度
🌐 支持跨领域强化学习

论文链接： https://arxiv.org/abs/2602.12036

智能体基准测试

Gaia2：动态异步环境中的 LLM 智能体基准

🌍 引入异步环境，环境独立于智能体行动而演化
✅ 写入动作验证器实现细粒度评估
🤖 GPT-5 (high) 达到42% pass@1，但在时间敏感任务中失败

论文链接： https://arxiv.org/abs/2602.11964

长上下文建模

MiniCPM-SALA：稀疏与线性注意力混合

🧠 整合稀疏注意力（InfLLM-V2）和线性注意力（Lightning Attention）
⚡ 在256K序列长度下推理速度提升3.5倍
📏 支持高达1M令牌的上下文长度

论文链接： https://arxiv.org/abs/2602.11761

上下文探索

Think Longer to Explore Deeper：长度激励强化学习

📏 长度基础奖励加冗余惩罚
🎯 最大化状态覆盖的两步方式
📈 域内任务平均提升4.4%，域外基准提升2.7%

论文链接： https://arxiv.org/abs/2602.11748

🛍️ 电商与应用

电商理解的视觉语言模型适配

研究重点：

🛒 针对电商数据的属性中心、多图像特性进行适配
📊 提出广泛的评估套件
🎯 保持通用多模态能力的同时提升电商性能

论文链接： https://arxiv.org/abs/2602.11733

视觉推理新范式

Thinking with Drafting：通过逻辑重建的光学解压缩

🧠 将视觉推理重新概念化为光学解压缩
💻 使用最小化领域特定语言（DSL）作为中间表示
✅ 提出VisAlg视觉代数基准测试

论文链接： https://arxiv.org/abs/2602.11731

高效推理路由

ThinkRouter：通过潜在和离散空间路由的高效推理

🧠 基于置信度的路由机制
🎯 低置信度时路由到离散令牌空间
📈 Pass@1平均提升19.70点，生成长度减少15.55%

论文链接： https://arxiv.org/abs/2602.11683

视觉指令调优

ScalSelect：可扩展的免训练多模态数据选择

🧠 线性时间复杂度的数据选择方法
🎯 提取视觉特征最受指令令牌关注
📊 仅使用16%数据达到完整数据集97.5%的性能

论文链接： https://arxiv.org/abs/2602.11636

具身导航

ABot-N0：通用具身导航的 VLA 基础模型

🧠 统一5个核心任务：点目标、物体目标、指令跟随、POI目标、人员跟随
🎯 分层”大脑-行动”架构
📊 在7个基准测试中达到新的SOTA性能

论文链接： https://arxiv.org/abs/2602.11598

分布式训练

SPES：分布式GPU预训练大语言模型的内存高效范式

💻 每个节点仅训练专家子集，大幅降低内存占用
🔄 专家合并热身策略加速收敛
📈 使用16个48GB GPU训练2B参数MoE LLM

论文链接： https://arxiv.org/abs/2602.11543

预算约束智能体

INTENT：成本工具使用的意图规划

💰 在严格预算约束下解决多步任务
🧠 意图感知分层世界模型
📊 在成本增强StableToolBench中表现优异

论文链接： https://arxiv.org/abs/2602.11541

多模态事实归因

MuRGAt：可验证推理的多模态事实级归因

🎯 评估复杂多模态推理中的事实级归因
📹 支持视频、音频等多种模态
✅ 引入自动评估框架

论文链接： https://arxiv.org/abs/2602.11509

机器人生态系统

MolmoSpaces：大规模机器人导航与操作开放生态系统

🏠 230k+多样化室内环境
🎯 130k+丰富标注对象资产
🤖 支持MuJoCo、Isaac、ManiSkill等模拟器

论文链接： https://arxiv.org/abs/2602.11337

实时语音识别

Voxtral Realtime：原生流式自动语音识别

⚡ 亚秒级延迟匹配离线转录质量
🎯 端到端流式训练
📊 480ms延迟下性能与Whisper相当

论文链接： https://arxiv.org/abs/2602.11298

机器人策略自我改进

RISE：通过组合世界模型的自我改进机器人策略

🧠 组合世界模型：可控动态模型+进度价值模型
🔄 闭环自我改进管道
📈 在动态任务中性能提升超35%

论文链接： https://arxiv.org/abs/2602.11075

音频标记化

MOSS-Audio-Tokenizer：扩展音频标记器

🎵 16亿参数，300万小时预训练数据
🎯 纯Transformer架构，端到端学习
📊 在语音、声音、音乐领域表现优异

论文链接： https://arxiv.org/abs/2602.10934

可解释机器学习

Neural Additive Experts：上下文门控专家

🧠 混合专家框架平衡可解释性与准确性
🎯 动态门控机制整合特征信息
📊 在真实数据集上表现优异

论文链接： https://arxiv.org/abs/2602.10585

图像隐喻理解

MetaphorStar：端到端视觉强化学习的图像隐喻理解

🧠 首个图像隐喻任务的端到端视觉RL框架
📊 TFQ-Data数据集、TFQ-GRPO方法、TFQ-Bench基准
📈 在基准测试中平均提升82.6%

论文链接： https://arxiv.org/abs/2602.10575

人形机器人操作

EgoHumanoid：通过自我中心演示解锁野外移动操作

👥 首个协同训练视觉语言动作策略的框架
🎯 系统对齐管道跨越硬件设计到数据处理
📈 在未见环境中性能提升51%

论文链接： https://arxiv.org/abs/2602.10106

多音轨音乐生成

Stemphonic：一次性灵活多音轨音乐生成

🎵 可变音轨集合一次推理生成
🎯 共享噪声潜在实现同步
📊 生成速度提升25-50倍

论文链接： https://arxiv.org/abs/2602.09891

AI社会安全

The Devil Behind Moltbook：自我进化AI社会中的拟人安全消失

⚠️ 自我进化三难困境：持续进化、完全隔离、安全不变性
🧠 信息论框架形式化安全
📊 理论与实证结果揭示不可避免的安全侵蚀

论文链接： https://arxiv.org/abs/2602.09877

机器人操作稳健性

χ_{0}：通过驯服分布不一致的资源感知稳健操作

🧠 模型算术：权重空间合并策略
🎯 阶段优势：阶段感知优势估计器
🔄 训练-部署对齐：时空增强

论文链接： https://arxiv.org/abs/2602.09021

视频配乐生成

NarraScore：通过分层情感控制桥接视觉叙事与音乐动态

🎵 情感作为叙事逻辑的高密度压缩
🧠 双分支注入策略：全局语义锚+令牌级情感适配器
📊 实现SOTA一致性和叙事对齐

论文链接： https://arxiv.org/abs/2602.09070

视频实例插入

PISCO：稀疏控制的精确视频实例插入

🎯 支持单关键帧、起止关键帧或稀疏关键帧控制
🧠 可变信息引导实现稳健调节
📊 在PISCO-Bench基准测试中表现优异

论文链接： https://arxiv.org/abs/2602.08277

开放世界课程学习

Dreaming in Code：开放世界中的课程学习

💻 代码级环境设计提供实用的课程控制机制
🎯 在Craftax基准测试中平均回报提升16%
🌐 构建弥合能力差距的中间环境

论文链接： https://arxiv.org/abs/2602.08194

内存优化

MemFly：通过信息瓶颈的即时内存优化

🧠 基于信息瓶颈原则的框架
🎯 分层内存结构高效存储
🔄 混合检索机制：语义、符号、拓扑路径

论文链接： https://arxiv.org/abs/2602.07885

视觉语言导航

Sparse Video Generation：推动真实世界超视野视觉语言导航

🎥 首次引入视频生成模型用于导航
⚡ 亚秒级轨迹推理，27倍加速
🌃 首次实现夜间场景能力

论文链接： https://arxiv.org/abs/2602.05827

RLVR训练数据检测

Detecting RLVR Training Data：推理结构收敛

🔍 Min-kNN距离检测方法
🎯 量化生成刚性和相似性的崩溃
📊 可靠区分RL见过和未见样本

论文链接： https://arxiv.org/abs/2602.11792

优势对称性分析

Unveiling Implicit Advantage Symmetry：GRPO探索与难度适应困境

⚖️ 揭示GRAE固有的优势对称性
🎯 提出非对称GRAE (A-GRAE)
📈 在7个基准测试中持续改进GRPO

论文链接： https://arxiv.org/abs/2602.05548

本文由AI自动整理生成，汇总了2026年2月14日前后AI领域的重要进展与突破

字节Seedance 2.0震撼发布，蚂蚁开源万亿参数模型Ring-2.5-1T，Gemini 3 Deep Think血洗编程榜单

https://daily.ailab1024.com/2026/02/14/ai-breakthroughs-seedance-ring-gemini/

作者

Joker

发布于

2026-02-14

更新于

2026-02-14

许可协议

字节Seedance 2.0震撼发布，蚂蚁开源万亿参数模型Ring-2.5-1T，Gemini 3 Deep Think血洗编程榜单

今日摘要

🎬 视频生成重大突破

字节跳动 Seedance 2.0：工业级视频生成时代来临

🧠 大模型技术突破

蚂蚁集团 Ring-2.5-1T：全球首个万亿参数混合线性架构模型

Google Gemini 3 Deep Think：编程与科研的”最强大脑”

智谱 GLM-5：从”代码生成”迈向”工程构建”

DeepSeek：上下文长度跃升至 1M Token

🤖 具身智能新进展

小米 Xiaomi-Robotics-0：突破”物理智能”延迟瓶颈

GigaBrain-0.5M*：基于世界模型的 VLA 学习

📰 行业动态

MiniMax M2.5：编程能力对标 Claude Opus 4.6

百度千帆 Coding Plan：集成主流大模型

🔬 最新论文

1. Stroke of Surprise：渐进式语义错觉

2. T3D：通过轨迹自蒸馏的少步扩散语言模型

3. DeepGen 1.0：轻量级统一多模态模型

4. Sci-CoE：科学推理的协同进化

5. dVoting：扩散大语言模型的快速投票

6. Learning beyond Teacher：广义在策略蒸馏

7. P-GenRM：个性化生成奖励模型

💡 技术亮点

AI 安全与评估

法律AI应用

强化学习优化

智能体基准测试

长上下文建模

上下文探索

🛍️ 电商与应用

电商理解的视觉语言模型适配

视觉推理新范式

高效推理路由

视觉指令调优

具身导航

分布式训练

预算约束智能体

多模态事实归因

机器人生态系统

实时语音识别

机器人策略自我改进

音频标记化

可解释机器学习

图像隐喻理解

人形机器人操作

多音轨音乐生成

AI社会安全

机器人操作稳健性

视频配乐生成

视频实例插入

开放世界课程学习

内存优化

视觉语言导航

RLVR训练数据检测

优势对称性分析

作者

发布于

更新于

许可协议

归档

目录