更新时间:2026-01-21 17:14 来源:牛马见闻
Rubin GPURubin GPU 依然延续了英伌使 Rubin GPU 为 AI 推理提供高达 50 PFLOPS 的 NVFP4 运算能力
<p style="text-align:justify;"><strong>2026 年[,AI 数据]中心发展进入了一个新的瓶颈阶段。</strong></p> <p style="text-align:justify;">单纯的算力堆砌似乎已经走到了尽头,随着代理式 AI 的兴起、混合专家模型(MoE)的普及,以及百万 token 级长上下文逐渐成为常态,大型云厂商开始意识到,竞争的关键不再是谁拥有更多 GPU,而是谁能更高效地使用,谁能把系统整体效率真正拉起来。</p> <p style="text-align:justify;">但传统数据中心的短板已经暴露无遗:当代理式 AI 需要处理多轮复杂对话时,它必须频繁调用不同的专家模型,同时保持对历史上下文的准确记忆。在这个过程中,GPU 可能大部分时间处于等待状态——等待数据从内存传输过来,等待网络将其他节点的计算结果送达,等待存储系统调出历史记忆。</p> <p style="text-align:justify;">正是在这样的背景下,英伟达在 CES 2026 上正式发布了 Rubin 平台和 BlueField-4。它们并非是一次硬件的常规升级,而是对传统数据中心低效这一症结开出的新处方,从某种意义上说,英伟达“重做了一次数据中心”,构建起了真正面向 AI 原生时代的硬件底座。</p> <p style="text-align:justify;"><strong>算力底座革命:</strong><strong>Rubin 平台的六芯协同突破</strong></p> <p style="text-align:justify;">我们先从一切计算工作的核心——Rubin 平台说起。</p> <p style="text-align:justify;">与以往围绕单一核心器件不断迭代的路径不同,Rubin 最显著的变化在于,它从一开始就放弃了“单点升级”的思路,而是以系统为基本设计单元,将 Vera CPU、Rubin GPU、NVLink 6 交换机、Spectrum-6 以太网交换机、ConnectX-9 SuperNIC 以及 BlueField-4 DPU 六款芯片整合为一个高度耦合的计算整体。</p> <p style="text-align:justify;">英伟达将这种设计方式称为“极致协同设计”(extreme co-design),其核心目标并不是某一组件的性能最大化,而是让整个系统在真实 AI 负载下更高效地运转。</p> <p style="text-align:justify;">从计算核心来看,Rubin GPU 依然延续了英伟达在算力上的快速推进。该 GPU 采用双芯粒设计,集成约 3360 亿个晶体管,并引入第三代 Transformer 引擎,支持硬件级自适应压缩。这一机制通过在不牺牲精度的前提下降低数据规模,使 Rubin GPU 为 AI 推理提供高达 50 PFLOPS 的 NVFP4 运算能力,更贴合当下以推理为主、上下文不断拉长的模型使用场景。</p> <p style="text-align:justify;">与之配合的 Vera CPU,同样是围绕系统效率进行设计。相比上一代 Grace,Vera 在性能和架构层面均有明显提升。其采用 88 个定制的 Olympus 核心,兼容 Armv9.2 架构,并通过 NVLink-C2C 与 GPU 建立高速直连。</p> <p style="text-align:justify;">值得一提的是,每个 Olympus 核心都支持 NVIDIA Spatial Multithreading(空间多线程),通过在物理层面对核心资源进行划分,实现最多 176 个并发线程,使系统能够在运行时在性能优先或密度优先之间灵活取舍。这种设计,直接服务于多模型并行和复杂调度场景。</p> <p style="text-align:justify;">连接这些芯片的则是第六代 NVLink 交换机。NVLink 6 将单 GPU 的互连带宽提升至 3.6 TB/s,使 Vera Rubin NVL72 机架内部的总互连带宽达到 260 TB/s。在这一带宽规模下,72 个 GPU 能够以接近单一计算体的方式协同工作,大幅减少模型切分、跨节点通信以及同步等待所带来的额外开销。这一点对 MoE 等高度依赖专家调度的模型尤为关键。</p> <p style="text-align:justify;">根据英伟达公布的数据,在全新的 Rubin 平台上,AI 推理的 token 成本可降至 Blackwell 平台的约十分之一,而 MoE 模型训练所需的 GPU 数量也仅为前代平台的四分之一左右。</p> <p style="text-align:justify;">显然,英伟达如今已不再执着于提升单卡算力,而是通过多组件的同步升级,实现更低成本、更低功耗的算力输出,从而把数据中心的运行效率带入了新的层级。</p> <p style="text-align:justify;"><strong>基建协同升级:</strong><strong>BlueField-4 引领的存储与网络重构</strong></p> <p style="text-align:justify;">如果说 Rubin 平台解决了算力输出问题,那么 BlueField-4 及其驱动的基础设施升级想要解决的,就是算力如何高效发挥的问题。</p> <p style="text-align:justify;">在代理式 AI、长上下文推理和多智能体协同成为主流之后,数据中心的瓶颈转移到了存储、网络和控制面,实际应用中的大模型需要持续访问大量历史信息,但对应的键值(KV)缓存既无法长期占用 GPU 显存,也无法交给传统存储体系处理——后者在延迟、并发访问和跨节点共享上的表现,都会让实时推理陷入等待。</p> <p style="text-align:justify;">围绕这一痛点,英伟达引入了推理上下文记忆存储平台,而 BlueField-4 DPU 正是这一平台的核心执行单元。BlueField-4 通过专用处理器和硬件加速引擎,将 KV 缓存的部署、管理和共享从 CPU 与 GPU 上彻底卸载出来,并借助 DOCA 框架实现跨节点的智能调度。当计算节点需要历史上下文时,数据可以以极低延迟被送达,GPU 不再为等待存储而空转。</p> <p style="text-align:justify;">这种重构带来了显而易见的性能提升。英伟达提供的官方数据显示,与传统存储方案相比,该平台在每秒 token 处理量、单位 TCO 性能以及能效上均可实现最高 5 倍提升。这并非某个单点优化的结果,而是因为原本分散在软件栈各处、消耗大量通用算力的杂务,被集中交由专用硬件完成。</p> <p style="text-align:justify;">但仅靠存储并不足以释放这部分潜力。KV 缓存需要在节点、机柜乃至集群之间高速流动,这要求网络具备稳定、可预测的低延迟特性。英伟达在这一层面将 BlueField-4 与 Spectrum-X 以太网、Spectrum-6 交换机绑定为一个整体,这也是 Rubin 平台的六芯协同的进一步扩展。</p> <p style="text-align:justify;">其中,Spectrum-X 针对 AI 工作负载优化了 RDMA 数据路径,减少横向扩展中的抖动与拥塞,让跨节点访问不再成为不确定因素。Spectrum-6 进一步引入硅光技术,使高带宽、长距离传输在功耗和稳定性上具备更好的可扩展性,标志着数据中心网络从“电”向“光”的实质性迁移。</p> <p style="text-align:justify;">在 Rubin 平台内部,高速计算通过 NVLink 6 完成;当数据需要跨机柜或跨集群流动时,则由 Spectrum-X 和 Spectrum-6 接管;而需要长期保存、反复访问的推理上下文,则由 BlueField-4 管理的存储体系承载。计算、存储与网络不再是各自独立优化的模块,而是被串联为一条连续、可控的数据通路,这正是 AI 原生数据中心与传统架构的本质差异。</p> <p style="text-align:justify;">在多租户云环境中,这样的协同还建立在清晰的安全边界之上。BlueField-4 通过零信任架构和硬件级隔离,将网络、存储和安全控制收敛到 DPU 管理之下。不同工作负载在物理层面被强制隔离,即便上层系统出现问题,也难以跨越这一硬件边界获取其他租户的数据。同时,借助 DOCA Argus 提供的基础设施级遥测能力,系统可以在推理运行过程中实时感知异常行为,为 AI 负载提供与其运行速度相匹配的安全保障。</p> <p style="text-align:justify;">更重要的是,这种设计让大量基础设施任务——包括网络协议处理、存储 I/O 管理、虚拟化与安全策略执行——不再消耗 CPU 或 GPU 的算力预算。BlueField-4 将这些工作全部接管,使主计算单元能够更专注于推理和训练本身,从而在不增加硬件规模的情况下提升有效算力占比。</p> <p style="text-align:justify;"><strong>算力与基建的协同效应:</strong><strong>完整价值闭环的形成</strong></p> <p style="text-align:justify;">从 Rubin 到 BlueField-4,英伟达给出的并不是两条并行的产品线,而是打造出 AI 原生数据中心的完整价值闭环。</p> <p style="text-align:justify;">以数据中心中的代理式 AI 的长上下文推理为例,大模型往往需要在当前推理计算与大量历史信息之间频繁切换,在英伟达所打造的闭环中,Rubin GPU 负责密集的推理计算,长上下文由 BlueField-4 管理的存储体系承载,机柜内通过 NVLink 6 实现高速共享,跨机柜则交由 Spectrum-X 网络完成传输。计算、记忆与通信各自承担最适合的角色,GPU 不再因等待上下文而空转,整体响应时间随之下降。</p> <p style="text-align:justify;">到了大规模 MoE 模型训练,二者协同带来的收益更加明显。MoE 的动态专家选择会导致计算与通信负载高度不均衡,传统架构下容易出现部分 GPU 忙碌、部分 GPU 等待的情况。Rubin 平台通过高速互连和调度能力减少这种不均衡,而 BlueField-4 将基础设施相关的工作从主计算路径中剥离,使更多 GPU 周期用于有效计算,最终实现系统效率的提升。</p> <p style="text-align:justify;">这种全新的协同设计还具备极强的可扩展性,以 DGX SuperPOD 为代表的机柜级设计,将算力与基建整合为了标准化单元,可直接横向扩展至数万 GPU 规模的集群,让多个数据中心在逻辑上形成连续的 AI 计算平台,真正满足未来更大规模 AI 应用的算力与基建需求。</p> <p style="text-align:justify;">不止如此,场景化价值验证也进一步印证了协同设计的高度可用性。在物理 AI 领域,英伟达与西门子达成了深度合作,西门子的埃尔朗根电子工厂将成为全球首批完全由 AI 驱动、具备自适应能力的制造基地,其“AI 大脑”能够持续分析数字孪生、在虚拟环境中测试改进方案、将经验证的洞察转化为车间操作变更。</p> <p style="text-align:justify;">这一 AI 工厂的构建过程,又对实时性、可靠性、数据一致性有了新的要求,只有算力、存储、网络紧密协同的系统才能胜任,而 Rubin 与 BlueField-4 正是支撑这一能力的核心基石。</p> <p style="text-align:justify;">对于英伟达而言,Rubin 与 BlueField-4 的价值闭环,不仅解决了当下的 AI 数据中心的问题,也构建了一套面向未来、可持续演进的技术体系,指明了未来 AI 原生计算的发展方向。</p> <p style="text-align:justify;"><strong>真正的创新</strong></p> <p style="text-align:justify;">过去十年,数据中心一直遵循着相同的逻辑,先有更快的 CPU,然后加上 GPU 加速,再加上更快的网络,然后是更大的存储…… 每次升级都聚焦于某个单点,期待通过局部优化来提升整体性能。这种思路在 AI 负载相对简单时尚能奏效,但面对代理式 AI、物理 AI 等新一代应用,已经力不从心。</p> <p style="text-align:justify;">而在 CES 2026 上,英伟达用 Rubin 和 BlueField-4 告诉大家:AI 原生数据中心需要摒弃过往的陈旧发展思路,用算力+基建的全新协同架构“从头来过”。</p> <p style="text-align:justify;">这一思路并不局限在英伟达自己的基础设施之中,未来可能会有愈来愈多的基础设施厂商效仿,推出各自的协同架构方案,芯片设计、服务器制造、数据中心建设的边界会变得模糊,系统集成能力会成为新的竞争焦点。可以说,Rubin 与 BlueField-4 的真正价值不在于某个具体的性能指标,而在于它展示了一种新的构建 AI 基础设施的方法论。</p> <p style="text-align:justify;">这或许是英伟达在 CES 2026 上留给我们的最重要启示。技术的进步不只是参数的提升,更是思维方式的转变。当 AI 开始重塑计算的底层逻辑时,我们需要用新的视角来理解什么是真正的性能,什么是真正的效率,以及什么是真正的创新。</p> <p></p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901