字节Seedance 2.0震撼发布,蚂蚁开源万亿参数模型Ring-2.5-1T,Gemini 3 Deep Think血洗编程榜单
今日摘要
今日AI领域迎来多项重磅发布:字节跳动Seedance 2.0实现视频生成工业级交付,蚂蚁集团开源全球首个万亿参数混合线性架构思考模型Ring-2.5-1T,Google Gemini 3 Deep Think在编程与科研领域取得突破性进展。此外,智谱GLM-5、DeepSeek上下文升级、小米机器人VLA模型等也带来重要更新。
🎬 视频生成重大突破
字节跳动 Seedance 2.0:工业级视频生成时代来临
字节跳动火山引擎即将于2月14日发布Seedance 2.0,这是一次视频生成技术的重大跃进:
核心亮点:
- 🎥 工业级交付:在人机交互与动态画面稳定性上达到行业领先,支持全模态输入,输出质量适配影视与广告等专业场景
- 🔍 实时检索增强:首次引入实时信息检索功能,确保创作内容与社会时效同步
- 🧠 深度意图理解:内置百科知识库,显著增强多语种处理能力
技术特性:
- 支持多模态文件输入,精准学习视频的运镜、动作及特效
- 生成音色与真人高度一致
- 为应对肖像隐私担忧,字节已紧急暂停真人素材参考功能
相关链接: 预计2月14日正式发布
🧠 大模型技术突破
蚂蚁集团 Ring-2.5-1T:全球首个万亿参数混合线性架构模型
蚂蚁集团开源全球首个基于混合线性架构的万亿参数思考模型Ring-2.5-1T,为智能体时代的复杂任务处理提供高性能基础支撑。
核心优势:
- 📊 数学推理领先:在数学推理和代码生成任务中达到开源领先水平
- ⚡ 高效生成:在长文本生成场景中显著提升生成效率
- 🤖 智能体适配:支持多步规划与工具调用,适配多种智能体框架
技术架构:
- 采用混合线性架构,优化推理效率
- 万亿级参数规模,保持高性能表现
- 开源发布,推动社区发展
Google Gemini 3 Deep Think:编程与科研的”最强大脑”
Google 最新发布的 Gemini 3 Deep Think 在编程、科研和工程领域实现重大突破:
编程能力封神:
- 💻 在算法竞赛平台 Codeforces 上取得 3455 Elo 的惊人高分,全球仅 7 人能击败它
- 🏆 在编程竞赛中展现出超越人类顶尖选手的能力
科研”最强大脑”:
- 🔬 发现高深物理数学论文中的细微漏洞
- ✅ 成功证明了”Erdős 猜想”中的多个难题
工程应用突破:
- 🛠️ 可将手绘草图分析并渲染成高保真的3D模型文件,提升建模效率 10 倍

智谱 GLM-5:从”代码生成”迈向”工程构建”
智谱发布GLM-5,标志着大模型从代码生成迈向工程构建的Agentic Ready时代:
技术突破:
- 🧠 参数扩展:模型参数扩展至744B,预训练数据量提升至28.5T
- 🚀 异步强化学习:采用”Slime”框架与异步智能体强化学习算法,提升长程交互能力
- 💻 多智能体协作:支持多智能体并发完成开发全流程
产业适配:
- 适配国产芯片平台,推动国产化进程
- 性能对标行业顶尖,在编程与工程任务中表现出色
DeepSeek:上下文长度跃升至 1M Token
DeepSeek 网页端与移动应用迎来重大更新:
核心升级:
- 📈 上下文扩展:从128K Token提升至1M Token,处理能力提升近8倍
- 📚 长文档处理:能一次性处理整本长篇小说
- 🔮 未来展望:下一代旗舰模型 DeepSeek V4 正在研发中,规模将达到万亿参数级
应用场景:
- 适用于长文档分析、小说创作、法律文书处理等多种场景
- 提升了复杂任务的处理能力
🤖 具身智能新进展
小米 Xiaomi-Robotics-0:突破”物理智能”延迟瓶颈
小米开源首代机器人VLA大模型Xiaomi-Robotics-0,解决了现有VLA模型的推理延迟问题:
技术特点:
- 🧠 视觉语言大脑(VLM):负责解析人类指令并捕捉空间关系
- ⚙️ 动作执行小脑(Action Expert):通过流匹配技术生成精准动作块
- 🚀 实时推理:在消费级显卡上实现实时推理与高效泛化
模型规模:
- 47亿参数
- 通过两阶段训练提升响应敏捷性
- 开源发布,推动机器人技术发展
项目地址: https://xiaomi-robotics-0.github.io

GigaBrain-0.5M*:基于世界模型的 VLA 学习
GigaBrain-0.5M* 是一款通过世界模型强化学习训练的VLA模型:
核心创新:
- 🌍 基于GigaBrain-0.5预训练,该版本在国际RoboChallenge排名第一
- 🔄 通过RAMP(世界模型条件策略强化学习)实现跨任务适配
- 📈 在复杂任务中性能提升约30%
应用场景:
- 洗衣折叠、箱子打包、咖啡制作等复杂操作任务
- 展现可靠的长时序执行能力
项目主页: https://gigabrain05m.github.io
📰 行业动态
MiniMax M2.5:编程能力对标 Claude Opus 4.6
MiniMax 发布 M2.5 模型,在编程与智能体场景中实现重大突破:
性能亮点:
- 🧠 全栈编程:支持 PC、App 及跨端应用的全链路开发
- ⚡ 效率神话:激活参数量仅为 10B,支持 100 TPS 的超高吞吐量
- 💰 资本反响:市值突破 1800 亿港元,当日涨幅超过 20%
百度千帆 Coding Plan:集成主流大模型
百度千帆推出全新 AI 编码订阅服务 Coding Plan:
核心特性:
- 🧠 深度集成 GLM-4.7 和 DeepSeek-V3.2 等主流代码模型
- 🔄 支持一键切换模型,兼容 OpenAI 及 Anthropic 协议
- 💰 提供多种订阅方案,满足不同需求

🔬 最新论文
1. Stroke of Surprise:渐进式语义错觉
研究亮点:
- 🎨 引入渐进式语义错觉,通过顺序添加笔画实现语义转换
- 🔄 双分支评分蒸馏采样(SDS)机制动态调整前缀笔画
- 🖼️ 创新的覆盖损失确保结构整合而非遮挡
论文链接: https://arxiv.org/abs/2602.12280
2. T3D:通过轨迹自蒸馏的少步扩散语言模型
核心贡献:
- 🧠 通过轨迹自蒸馏改进少步解码
- 🎯 引入直接判别优化(DDO),促进模式寻找蒸馏
- 📈 在紧张步骤预算下显著优于基线
论文链接: https://arxiv.org/abs/2602.12262
3. DeepGen 1.0:轻量级统一多模态模型
技术特点:
- 🧠 仅50亿参数,实现图像生成与编辑的全面能力
- 🎯 引入堆叠通道桥接(SCB)深度对齐框架
- 🚀 在WISE和UniREditBench等基准测试中表现领先
论文链接: https://arxiv.org/abs/2602.12205
4. Sci-CoE:科学推理的协同进化
研究创新:
- 🧠 双阶段科学协同进化框架
- 🎯 几何奖励机制联合考虑共识、可靠性和多样性
- 📊 在多个科学基准测试中显著优于基线
论文链接: https://arxiv.org/abs/2602.12164
5. dVoting:扩散大语言模型的快速投票
核心方法:
- 🗳️ 通过采样和一致性分析识别不确定令牌
- 🔄 迭代细化直至收敛
- 📈 在GSM8K、MATH500等基准测试中取得显著提升
论文链接: https://arxiv.org/abs/2602.12153
6. Learning beyond Teacher:广义在策略蒸馏
技术贡献:
- 🧠 提出广义在策略蒸馏(G-OPD)框架
- 🎯 引入灵活参考模型和奖励缩放因子
- 🚀 在数学推理和代码生成任务中表现优异
论文链接: https://arxiv.org/abs/2602.12125
7. P-GenRM:个性化生成奖励模型
创新点:
- 🧠 首个个性化生成奖励模型
- 👥 双粒度缩放机制:个人级和原型级
- 📈 在基准测试中平均提升2.31%
论文链接: https://arxiv.org/abs/2602.12116
💡 技术亮点
AI 安全与评估
DeepSight:全方位 LM 安全工具包
- ✅ 统一安全评估与诊断范式
- 🔍 从黑盒评估转向白盒洞察
- 🌐 首个支持前沿AI风险评估的开源工具包
论文链接: https://arxiv.org/abs/2602.12092
法律AI应用
LawThinker:动态环境中的深度研究法律智能体
- ⚖️ 探索-验证-记忆策略
- 🔍 DeepVerifier模块三维度检验知识准确性
- 📈 在J1-EVAL基准测试中提升24%
论文链接: https://arxiv.org/abs/2602.12056
强化学习优化
Composition-RL:可验证提示的组合式强化学习
- 🧩 自动组合多个问题创建新的可验证问题
- 📚 课程式变体逐步增加组合深度
- 🌐 支持跨领域强化学习
论文链接: https://arxiv.org/abs/2602.12036
智能体基准测试
Gaia2:动态异步环境中的 LLM 智能体基准
- 🌍 引入异步环境,环境独立于智能体行动而演化
- ✅ 写入动作验证器实现细粒度评估
- 🤖 GPT-5 (high) 达到42% pass@1,但在时间敏感任务中失败
论文链接: https://arxiv.org/abs/2602.11964
长上下文建模
MiniCPM-SALA:稀疏与线性注意力混合
- 🧠 整合稀疏注意力(InfLLM-V2)和线性注意力(Lightning Attention)
- ⚡ 在256K序列长度下推理速度提升3.5倍
- 📏 支持高达1M令牌的上下文长度
论文链接: https://arxiv.org/abs/2602.11761
上下文探索
Think Longer to Explore Deeper:长度激励强化学习
- 📏 长度基础奖励加冗余惩罚
- 🎯 最大化状态覆盖的两步方式
- 📈 域内任务平均提升4.4%,域外基准提升2.7%
论文链接: https://arxiv.org/abs/2602.11748
🛍️ 电商与应用
电商理解的视觉语言模型适配
研究重点:
- 🛒 针对电商数据的属性中心、多图像特性进行适配
- 📊 提出广泛的评估套件
- 🎯 保持通用多模态能力的同时提升电商性能
论文链接: https://arxiv.org/abs/2602.11733
视觉推理新范式
Thinking with Drafting:通过逻辑重建的光学解压缩
- 🧠 将视觉推理重新概念化为光学解压缩
- 💻 使用最小化领域特定语言(DSL)作为中间表示
- ✅ 提出VisAlg视觉代数基准测试
论文链接: https://arxiv.org/abs/2602.11731
高效推理路由
ThinkRouter:通过潜在和离散空间路由的高效推理
- 🧠 基于置信度的路由机制
- 🎯 低置信度时路由到离散令牌空间
- 📈 Pass@1平均提升19.70点,生成长度减少15.55%
论文链接: https://arxiv.org/abs/2602.11683
视觉指令调优
ScalSelect:可扩展的免训练多模态数据选择
- 🧠 线性时间复杂度的数据选择方法
- 🎯 提取视觉特征最受指令令牌关注
- 📊 仅使用16%数据达到完整数据集97.5%的性能
论文链接: https://arxiv.org/abs/2602.11636
具身导航
ABot-N0:通用具身导航的 VLA 基础模型
- 🧠 统一5个核心任务:点目标、物体目标、指令跟随、POI目标、人员跟随
- 🎯 分层”大脑-行动”架构
- 📊 在7个基准测试中达到新的SOTA性能
论文链接: https://arxiv.org/abs/2602.11598
分布式训练
SPES:分布式GPU预训练大语言模型的内存高效范式
- 💻 每个节点仅训练专家子集,大幅降低内存占用
- 🔄 专家合并热身策略加速收敛
- 📈 使用16个48GB GPU训练2B参数MoE LLM
论文链接: https://arxiv.org/abs/2602.11543
预算约束智能体
INTENT:成本工具使用的意图规划
- 💰 在严格预算约束下解决多步任务
- 🧠 意图感知分层世界模型
- 📊 在成本增强StableToolBench中表现优异
论文链接: https://arxiv.org/abs/2602.11541
多模态事实归因
MuRGAt:可验证推理的多模态事实级归因
- 🎯 评估复杂多模态推理中的事实级归因
- 📹 支持视频、音频等多种模态
- ✅ 引入自动评估框架
论文链接: https://arxiv.org/abs/2602.11509
机器人生态系统
MolmoSpaces:大规模机器人导航与操作开放生态系统
- 🏠 230k+多样化室内环境
- 🎯 130k+丰富标注对象资产
- 🤖 支持MuJoCo、Isaac、ManiSkill等模拟器
论文链接: https://arxiv.org/abs/2602.11337
实时语音识别
Voxtral Realtime:原生流式自动语音识别
- ⚡ 亚秒级延迟匹配离线转录质量
- 🎯 端到端流式训练
- 📊 480ms延迟下性能与Whisper相当
论文链接: https://arxiv.org/abs/2602.11298
机器人策略自我改进
RISE:通过组合世界模型的自我改进机器人策略
- 🧠 组合世界模型:可控动态模型+进度价值模型
- 🔄 闭环自我改进管道
- 📈 在动态任务中性能提升超35%
论文链接: https://arxiv.org/abs/2602.11075
音频标记化
MOSS-Audio-Tokenizer:扩展音频标记器
- 🎵 16亿参数,300万小时预训练数据
- 🎯 纯Transformer架构,端到端学习
- 📊 在语音、声音、音乐领域表现优异
论文链接: https://arxiv.org/abs/2602.10934
可解释机器学习
Neural Additive Experts:上下文门控专家
- 🧠 混合专家框架平衡可解释性与准确性
- 🎯 动态门控机制整合特征信息
- 📊 在真实数据集上表现优异
论文链接: https://arxiv.org/abs/2602.10585
图像隐喻理解
MetaphorStar:端到端视觉强化学习的图像隐喻理解
- 🧠 首个图像隐喻任务的端到端视觉RL框架
- 📊 TFQ-Data数据集、TFQ-GRPO方法、TFQ-Bench基准
- 📈 在基准测试中平均提升82.6%
论文链接: https://arxiv.org/abs/2602.10575
人形机器人操作
EgoHumanoid:通过自我中心演示解锁野外移动操作
- 👥 首个协同训练视觉语言动作策略的框架
- 🎯 系统对齐管道跨越硬件设计到数据处理
- 📈 在未见环境中性能提升51%
论文链接: https://arxiv.org/abs/2602.10106
多音轨音乐生成
Stemphonic:一次性灵活多音轨音乐生成
- 🎵 可变音轨集合一次推理生成
- 🎯 共享噪声潜在实现同步
- 📊 生成速度提升25-50倍
论文链接: https://arxiv.org/abs/2602.09891
AI社会安全
The Devil Behind Moltbook:自我进化AI社会中的拟人安全消失
- ⚠️ 自我进化三难困境:持续进化、完全隔离、安全不变性
- 🧠 信息论框架形式化安全
- 📊 理论与实证结果揭示不可避免的安全侵蚀
论文链接: https://arxiv.org/abs/2602.09877
机器人操作稳健性
χ_{0}:通过驯服分布不一致的资源感知稳健操作
- 🧠 模型算术:权重空间合并策略
- 🎯 阶段优势:阶段感知优势估计器
- 🔄 训练-部署对齐:时空增强
论文链接: https://arxiv.org/abs/2602.09021
视频配乐生成
NarraScore:通过分层情感控制桥接视觉叙事与音乐动态
- 🎵 情感作为叙事逻辑的高密度压缩
- 🧠 双分支注入策略:全局语义锚+令牌级情感适配器
- 📊 实现SOTA一致性和叙事对齐
论文链接: https://arxiv.org/abs/2602.09070
视频实例插入
PISCO:稀疏控制的精确视频实例插入
- 🎯 支持单关键帧、起止关键帧或稀疏关键帧控制
- 🧠 可变信息引导实现稳健调节
- 📊 在PISCO-Bench基准测试中表现优异
论文链接: https://arxiv.org/abs/2602.08277
开放世界课程学习
Dreaming in Code:开放世界中的课程学习
- 💻 代码级环境设计提供实用的课程控制机制
- 🎯 在Craftax基准测试中平均回报提升16%
- 🌐 构建弥合能力差距的中间环境
论文链接: https://arxiv.org/abs/2602.08194
内存优化
MemFly:通过信息瓶颈的即时内存优化
- 🧠 基于信息瓶颈原则的框架
- 🎯 分层内存结构高效存储
- 🔄 混合检索机制:语义、符号、拓扑路径
论文链接: https://arxiv.org/abs/2602.07885
视觉语言导航
Sparse Video Generation:推动真实世界超视野视觉语言导航
- 🎥 首次引入视频生成模型用于导航
- ⚡ 亚秒级轨迹推理,27倍加速
- 🌃 首次实现夜间场景能力
论文链接: https://arxiv.org/abs/2602.05827
RLVR训练数据检测
Detecting RLVR Training Data:推理结构收敛
- 🔍 Min-kNN距离检测方法
- 🎯 量化生成刚性和相似性的崩溃
- 📊 可靠区分RL见过和未见样本
论文链接: https://arxiv.org/abs/2602.11792
优势对称性分析
Unveiling Implicit Advantage Symmetry:GRPO探索与难度适应困境
- ⚖️ 揭示GRAE固有的优势对称性
- 🎯 提出非对称GRAE (A-GRAE)
- 📈 在7个基准测试中持续改进GRPO
论文链接: https://arxiv.org/abs/2602.05548
本文由AI自动整理生成,汇总了2026年2月14日前后AI领域的重要进展与突破
字节Seedance 2.0震撼发布,蚂蚁开源万亿参数模型Ring-2.5-1T,Gemini 3 Deep Think血洗编程榜单
https://daily.ailab1024.com/2026/02/14/ai-breakthroughs-seedance-ring-gemini/