字节Seedance 2.0震撼发布,蚂蚁开源万亿参数模型Ring-2.5-1T,Gemini 3 Deep Think血洗编程榜单

今日摘要

今日AI领域迎来多项重磅发布:字节跳动Seedance 2.0实现视频生成工业级交付,蚂蚁集团开源全球首个万亿参数混合线性架构思考模型Ring-2.5-1T,Google Gemini 3 Deep Think在编程与科研领域取得突破性进展。此外,智谱GLM-5、DeepSeek上下文升级、小米机器人VLA模型等也带来重要更新。

🎬 视频生成重大突破

字节跳动 Seedance 2.0:工业级视频生成时代来临

字节跳动火山引擎即将于2月14日发布Seedance 2.0,这是一次视频生成技术的重大跃进:

核心亮点:

  • 🎥 工业级交付:在人机交互与动态画面稳定性上达到行业领先,支持全模态输入,输出质量适配影视与广告等专业场景
  • 🔍 实时检索增强:首次引入实时信息检索功能,确保创作内容与社会时效同步
  • 🧠 深度意图理解:内置百科知识库,显著增强多语种处理能力

技术特性:

  • 支持多模态文件输入,精准学习视频的运镜、动作及特效
  • 生成音色与真人高度一致
  • 为应对肖像隐私担忧,字节已紧急暂停真人素材参考功能

相关链接: 预计2月14日正式发布


🧠 大模型技术突破

蚂蚁集团 Ring-2.5-1T:全球首个万亿参数混合线性架构模型

蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T,为智能体时代的复杂任务处理提供高性能基础支撑。

核心优势:

  • 📊 数学推理领先:在数学推理和代码生成任务中达到开源领先水平
  • 高效生成:在长文本生成场景中显著提升生成效率
  • 🤖 智能体适配:支持多步规划与工具调用,适配多种智能体框架

技术架构:

  • 采用混合线性架构,优化推理效率
  • 万亿级参数规模,保持高性能表现
  • 开源发布,推动社区发展

Google Gemini 3 Deep Think:编程与科研的”最强大脑”

Google 最新发布的 Gemini 3 Deep Think 在编程、科研和工程领域实现重大突破:

编程能力封神:

  • 💻 在算法竞赛平台 Codeforces 上取得 3455 Elo 的惊人高分,全球仅 7 人能击败它
  • 🏆 在编程竞赛中展现出超越人类顶尖选手的能力

科研”最强大脑”:

  • 🔬 发现高深物理数学论文中的细微漏洞
  • ✅ 成功证明了”Erdős 猜想”中的多个难题

工程应用突破:

  • 🛠️ 可将手绘草图分析并渲染成高保真的3D模型文件,提升建模效率 10 倍

Gemini 3 Deep Think Performance


智谱 GLM-5:从”代码生成”迈向”工程构建”

智谱发布GLM-5,标志着大模型从代码生成迈向工程构建的Agentic Ready时代:

技术突破:

  • 🧠 参数扩展:模型参数扩展至744B,预训练数据量提升至28.5T
  • 🚀 异步强化学习:采用”Slime”框架与异步智能体强化学习算法,提升长程交互能力
  • 💻 多智能体协作:支持多智能体并发完成开发全流程

产业适配:

  • 适配国产芯片平台,推动国产化进程
  • 性能对标行业顶尖,在编程与工程任务中表现出色

DeepSeek:上下文长度跃升至 1M Token

DeepSeek 网页端与移动应用迎来重大更新:

核心升级:

  • 📈 上下文扩展:从128K Token提升至1M Token,处理能力提升近8倍
  • 📚 长文档处理:能一次性处理整本长篇小说
  • 🔮 未来展望:下一代旗舰模型 DeepSeek V4 正在研发中,规模将达到万亿参数级

应用场景:

  • 适用于长文档分析、小说创作、法律文书处理等多种场景
  • 提升了复杂任务的处理能力

🤖 具身智能新进展

小米 Xiaomi-Robotics-0:突破”物理智能”延迟瓶颈

小米开源首代机器人VLA大模型Xiaomi-Robotics-0,解决了现有VLA模型的推理延迟问题:

技术特点:

  • 🧠 视觉语言大脑(VLM):负责解析人类指令并捕捉空间关系
  • ⚙️ 动作执行小脑(Action Expert):通过流匹配技术生成精准动作块
  • 🚀 实时推理:在消费级显卡上实现实时推理与高效泛化

模型规模:

  • 47亿参数
  • 通过两阶段训练提升响应敏捷性
  • 开源发布,推动机器人技术发展

项目地址: https://xiaomi-robotics-0.github.io

Xiaomi Robotics VLA


GigaBrain-0.5M*:基于世界模型的 VLA 学习

GigaBrain-0.5M* 是一款通过世界模型强化学习训练的VLA模型:

核心创新:

  • 🌍 基于GigaBrain-0.5预训练,该版本在国际RoboChallenge排名第一
  • 🔄 通过RAMP(世界模型条件策略强化学习)实现跨任务适配
  • 📈 在复杂任务中性能提升约30%

应用场景:

  • 洗衣折叠、箱子打包、咖啡制作等复杂操作任务
  • 展现可靠的长时序执行能力

项目主页: https://gigabrain05m.github.io


📰 行业动态

MiniMax M2.5:编程能力对标 Claude Opus 4.6

MiniMax 发布 M2.5 模型,在编程与智能体场景中实现重大突破:

性能亮点:

  • 🧠 全栈编程:支持 PC、App 及跨端应用的全链路开发
  • 效率神话:激活参数量仅为 10B,支持 100 TPS 的超高吞吐量
  • 💰 资本反响:市值突破 1800 亿港元,当日涨幅超过 20%

百度千帆 Coding Plan:集成主流大模型

百度千帆推出全新 AI 编码订阅服务 Coding Plan:

核心特性:

  • 🧠 深度集成 GLM-4.7 和 DeepSeek-V3.2 等主流代码模型
  • 🔄 支持一键切换模型,兼容 OpenAI 及 Anthropic 协议
  • 💰 提供多种订阅方案,满足不同需求

Coding Plan


🔬 最新论文

1. Stroke of Surprise:渐进式语义错觉

研究亮点:

  • 🎨 引入渐进式语义错觉,通过顺序添加笔画实现语义转换
  • 🔄 双分支评分蒸馏采样(SDS)机制动态调整前缀笔画
  • 🖼️ 创新的覆盖损失确保结构整合而非遮挡

论文链接: https://arxiv.org/abs/2602.12280


2. T3D:通过轨迹自蒸馏的少步扩散语言模型

核心贡献:

  • 🧠 通过轨迹自蒸馏改进少步解码
  • 🎯 引入直接判别优化(DDO),促进模式寻找蒸馏
  • 📈 在紧张步骤预算下显著优于基线

论文链接: https://arxiv.org/abs/2602.12262


3. DeepGen 1.0:轻量级统一多模态模型

技术特点:

  • 🧠 仅50亿参数,实现图像生成与编辑的全面能力
  • 🎯 引入堆叠通道桥接(SCB)深度对齐框架
  • 🚀 在WISE和UniREditBench等基准测试中表现领先

论文链接: https://arxiv.org/abs/2602.12205


4. Sci-CoE:科学推理的协同进化

研究创新:

  • 🧠 双阶段科学协同进化框架
  • 🎯 几何奖励机制联合考虑共识、可靠性和多样性
  • 📊 在多个科学基准测试中显著优于基线

论文链接: https://arxiv.org/abs/2602.12164


5. dVoting:扩散大语言模型的快速投票

核心方法:

  • 🗳️ 通过采样和一致性分析识别不确定令牌
  • 🔄 迭代细化直至收敛
  • 📈 在GSM8K、MATH500等基准测试中取得显著提升

论文链接: https://arxiv.org/abs/2602.12153


6. Learning beyond Teacher:广义在策略蒸馏

技术贡献:

  • 🧠 提出广义在策略蒸馏(G-OPD)框架
  • 🎯 引入灵活参考模型和奖励缩放因子
  • 🚀 在数学推理和代码生成任务中表现优异

论文链接: https://arxiv.org/abs/2602.12125


7. P-GenRM:个性化生成奖励模型

创新点:

  • 🧠 首个个性化生成奖励模型
  • 👥 双粒度缩放机制:个人级和原型级
  • 📈 在基准测试中平均提升2.31%

论文链接: https://arxiv.org/abs/2602.12116


💡 技术亮点

AI 安全与评估

DeepSight:全方位 LM 安全工具包

  • ✅ 统一安全评估与诊断范式
  • 🔍 从黑盒评估转向白盒洞察
  • 🌐 首个支持前沿AI风险评估的开源工具包

论文链接: https://arxiv.org/abs/2602.12092


法律AI应用

LawThinker:动态环境中的深度研究法律智能体

  • ⚖️ 探索-验证-记忆策略
  • 🔍 DeepVerifier模块三维度检验知识准确性
  • 📈 在J1-EVAL基准测试中提升24%

论文链接: https://arxiv.org/abs/2602.12056


强化学习优化

Composition-RL:可验证提示的组合式强化学习

  • 🧩 自动组合多个问题创建新的可验证问题
  • 📚 课程式变体逐步增加组合深度
  • 🌐 支持跨领域强化学习

论文链接: https://arxiv.org/abs/2602.12036


智能体基准测试

Gaia2:动态异步环境中的 LLM 智能体基准

  • 🌍 引入异步环境,环境独立于智能体行动而演化
  • ✅ 写入动作验证器实现细粒度评估
  • 🤖 GPT-5 (high) 达到42% pass@1,但在时间敏感任务中失败

论文链接: https://arxiv.org/abs/2602.11964


长上下文建模

MiniCPM-SALA:稀疏与线性注意力混合

  • 🧠 整合稀疏注意力(InfLLM-V2)和线性注意力(Lightning Attention)
  • ⚡ 在256K序列长度下推理速度提升3.5倍
  • 📏 支持高达1M令牌的上下文长度

论文链接: https://arxiv.org/abs/2602.11761


上下文探索

Think Longer to Explore Deeper:长度激励强化学习

  • 📏 长度基础奖励加冗余惩罚
  • 🎯 最大化状态覆盖的两步方式
  • 📈 域内任务平均提升4.4%,域外基准提升2.7%

论文链接: https://arxiv.org/abs/2602.11748


🛍️ 电商与应用

电商理解的视觉语言模型适配

研究重点:

  • 🛒 针对电商数据的属性中心、多图像特性进行适配
  • 📊 提出广泛的评估套件
  • 🎯 保持通用多模态能力的同时提升电商性能

论文链接: https://arxiv.org/abs/2602.11733


视觉推理新范式

Thinking with Drafting:通过逻辑重建的光学解压缩

  • 🧠 将视觉推理重新概念化为光学解压缩
  • 💻 使用最小化领域特定语言(DSL)作为中间表示
  • ✅ 提出VisAlg视觉代数基准测试

论文链接: https://arxiv.org/abs/2602.11731


高效推理路由

ThinkRouter:通过潜在和离散空间路由的高效推理

  • 🧠 基于置信度的路由机制
  • 🎯 低置信度时路由到离散令牌空间
  • 📈 Pass@1平均提升19.70点,生成长度减少15.55%

论文链接: https://arxiv.org/abs/2602.11683


视觉指令调优

ScalSelect:可扩展的免训练多模态数据选择

  • 🧠 线性时间复杂度的数据选择方法
  • 🎯 提取视觉特征最受指令令牌关注
  • 📊 仅使用16%数据达到完整数据集97.5%的性能

论文链接: https://arxiv.org/abs/2602.11636


具身导航

ABot-N0:通用具身导航的 VLA 基础模型

  • 🧠 统一5个核心任务:点目标、物体目标、指令跟随、POI目标、人员跟随
  • 🎯 分层”大脑-行动”架构
  • 📊 在7个基准测试中达到新的SOTA性能

论文链接: https://arxiv.org/abs/2602.11598


分布式训练

SPES:分布式GPU预训练大语言模型的内存高效范式

  • 💻 每个节点仅训练专家子集,大幅降低内存占用
  • 🔄 专家合并热身策略加速收敛
  • 📈 使用16个48GB GPU训练2B参数MoE LLM

论文链接: https://arxiv.org/abs/2602.11543


预算约束智能体

INTENT:成本工具使用的意图规划

  • 💰 在严格预算约束下解决多步任务
  • 🧠 意图感知分层世界模型
  • 📊 在成本增强StableToolBench中表现优异

论文链接: https://arxiv.org/abs/2602.11541


多模态事实归因

MuRGAt:可验证推理的多模态事实级归因

  • 🎯 评估复杂多模态推理中的事实级归因
  • 📹 支持视频、音频等多种模态
  • ✅ 引入自动评估框架

论文链接: https://arxiv.org/abs/2602.11509


机器人生态系统

MolmoSpaces:大规模机器人导航与操作开放生态系统

  • 🏠 230k+多样化室内环境
  • 🎯 130k+丰富标注对象资产
  • 🤖 支持MuJoCo、Isaac、ManiSkill等模拟器

论文链接: https://arxiv.org/abs/2602.11337


实时语音识别

Voxtral Realtime:原生流式自动语音识别

  • ⚡ 亚秒级延迟匹配离线转录质量
  • 🎯 端到端流式训练
  • 📊 480ms延迟下性能与Whisper相当

论文链接: https://arxiv.org/abs/2602.11298


机器人策略自我改进

RISE:通过组合世界模型的自我改进机器人策略

  • 🧠 组合世界模型:可控动态模型+进度价值模型
  • 🔄 闭环自我改进管道
  • 📈 在动态任务中性能提升超35%

论文链接: https://arxiv.org/abs/2602.11075


音频标记化

MOSS-Audio-Tokenizer:扩展音频标记器

  • 🎵 16亿参数,300万小时预训练数据
  • 🎯 纯Transformer架构,端到端学习
  • 📊 在语音、声音、音乐领域表现优异

论文链接: https://arxiv.org/abs/2602.10934


可解释机器学习

Neural Additive Experts:上下文门控专家

  • 🧠 混合专家框架平衡可解释性与准确性
  • 🎯 动态门控机制整合特征信息
  • 📊 在真实数据集上表现优异

论文链接: https://arxiv.org/abs/2602.10585


图像隐喻理解

MetaphorStar:端到端视觉强化学习的图像隐喻理解

  • 🧠 首个图像隐喻任务的端到端视觉RL框架
  • 📊 TFQ-Data数据集、TFQ-GRPO方法、TFQ-Bench基准
  • 📈 在基准测试中平均提升82.6%

论文链接: https://arxiv.org/abs/2602.10575


人形机器人操作

EgoHumanoid:通过自我中心演示解锁野外移动操作

  • 👥 首个协同训练视觉语言动作策略的框架
  • 🎯 系统对齐管道跨越硬件设计到数据处理
  • 📈 在未见环境中性能提升51%

论文链接: https://arxiv.org/abs/2602.10106


多音轨音乐生成

Stemphonic:一次性灵活多音轨音乐生成

  • 🎵 可变音轨集合一次推理生成
  • 🎯 共享噪声潜在实现同步
  • 📊 生成速度提升25-50倍

论文链接: https://arxiv.org/abs/2602.09891


AI社会安全

The Devil Behind Moltbook:自我进化AI社会中的拟人安全消失

  • ⚠️ 自我进化三难困境:持续进化、完全隔离、安全不变性
  • 🧠 信息论框架形式化安全
  • 📊 理论与实证结果揭示不可避免的安全侵蚀

论文链接: https://arxiv.org/abs/2602.09877


机器人操作稳健性

χ_{0}:通过驯服分布不一致的资源感知稳健操作

  • 🧠 模型算术:权重空间合并策略
  • 🎯 阶段优势:阶段感知优势估计器
  • 🔄 训练-部署对齐:时空增强

论文链接: https://arxiv.org/abs/2602.09021


视频配乐生成

NarraScore:通过分层情感控制桥接视觉叙事与音乐动态

  • 🎵 情感作为叙事逻辑的高密度压缩
  • 🧠 双分支注入策略:全局语义锚+令牌级情感适配器
  • 📊 实现SOTA一致性和叙事对齐

论文链接: https://arxiv.org/abs/2602.09070


视频实例插入

PISCO:稀疏控制的精确视频实例插入

  • 🎯 支持单关键帧、起止关键帧或稀疏关键帧控制
  • 🧠 可变信息引导实现稳健调节
  • 📊 在PISCO-Bench基准测试中表现优异

论文链接: https://arxiv.org/abs/2602.08277


开放世界课程学习

Dreaming in Code:开放世界中的课程学习

  • 💻 代码级环境设计提供实用的课程控制机制
  • 🎯 在Craftax基准测试中平均回报提升16%
  • 🌐 构建弥合能力差距的中间环境

论文链接: https://arxiv.org/abs/2602.08194


内存优化

MemFly:通过信息瓶颈的即时内存优化

  • 🧠 基于信息瓶颈原则的框架
  • 🎯 分层内存结构高效存储
  • 🔄 混合检索机制:语义、符号、拓扑路径

论文链接: https://arxiv.org/abs/2602.07885


视觉语言导航

Sparse Video Generation:推动真实世界超视野视觉语言导航

  • 🎥 首次引入视频生成模型用于导航
  • ⚡ 亚秒级轨迹推理,27倍加速
  • 🌃 首次实现夜间场景能力

论文链接: https://arxiv.org/abs/2602.05827


RLVR训练数据检测

Detecting RLVR Training Data:推理结构收敛

  • 🔍 Min-kNN距离检测方法
  • 🎯 量化生成刚性和相似性的崩溃
  • 📊 可靠区分RL见过和未见样本

论文链接: https://arxiv.org/abs/2602.11792


优势对称性分析

Unveiling Implicit Advantage Symmetry:GRPO探索与难度适应困境

  • ⚖️ 揭示GRAE固有的优势对称性
  • 🎯 提出非对称GRAE (A-GRAE)
  • 📈 在7个基准测试中持续改进GRPO

论文链接: https://arxiv.org/abs/2602.05548


本文由AI自动整理生成,汇总了2026年2月14日前后AI领域的重要进展与突破

字节Seedance 2.0震撼发布,蚂蚁开源万亿参数模型Ring-2.5-1T,Gemini 3 Deep Think血洗编程榜单

https://daily.ailab1024.com/2026/02/14/ai-breakthroughs-seedance-ring-gemini/

作者

Joker

发布于

2026-02-14

更新于

2026-02-14

许可协议