新闻资讯

/
新闻资讯

英伟达 Groq 3 LPU推理加速器与Groq LPX机柜入驻Rubin平台


文章出处:瑞航达电子国际化电子元件渠道分销商 作者:电子元器件供应链服务商 发表时间:2026-03-21

格罗克(Groq)技术为Rubin平台迈向多智能体系统新领域做好准备


Rubin图形处理器与格罗克推理加速器


英伟达的Vera・Rubin计算平台将为下一代人工智能数据中心(英伟达首席执行官黄仁勋将其称作 “人工智能工厂”)提供强劲算力支持,这些系统将于今年晚些时候

正式面世。在本届 GTC 大会的主题演讲中,黄仁勋公布了英伟达将去年收购的格罗克知识产权技术融入Rubin平台、实现功能升级的具体方案。Rubin平台现已新增一

款核心芯片 —— 英伟达 Groq 3 LPU 推理加速器,该芯片能大幅提升系统的令牌生成量与低延迟表现,为前沿 AI 模型的高交互性运行提供支撑。


此前,Rubin平台已搭载六款核心芯片,英伟达依托这些芯片搭建机柜级算力系统,并进一步拓展为规模化人工智能工厂,这六款芯片分别为:Rubin图形处理器、Vera

中央处理器、新一代 NVLink 6 横向扩展交换机、ConnectX 9 智能网络接口卡、Bluefield 4 数据处理单元,以及集成共封装光模块的 Spectrum-X 纵向扩展交换机。

如今,Groq 3 LPU 成为Rubin平台实现规模化扩展的又一核心硬件单元。


与多数依赖高带宽存储器作为工作内存的人工智能加速器不同,每颗 Groq 3 LPU 芯片均集成了 500 兆字节的静态随机存取存储器,这类存储器也被用于中央处理器

和图形处理器的超高速缓存。相较于Rubin图形处理器搭载的 288 吉字节超大容量第四代高带宽存储器,500 兆字节的容量看似微不足道,但该静态随机存取存储器能

提供 150 太字节 / 秒的超高带宽,远超第四代高带宽存储器 22 太字节 / 秒的带宽表现。对于对带宽高度敏感的人工智能解码运算,Groq 3 芯片带来的海量带宽提升,

能为推理应用赋予极具吸引力的性能优势。


英伟达将基于 Groq 3 LPU 芯片搭建 Groq 3 LPX 机柜,每个机柜集成 256 颗 Groq 3 LPU 芯片。该款机柜可提供 128 吉字节的静态随机存取存储器,推理加速带宽

达 40 拍字节 / 秒,机柜内还配备专用横向扩展接口,单台机柜的扩展带宽可达 640 太字节 / 秒。


英伟达 Groq 3 LPX 机柜核心参数


2026 年下半年正式上市


人工智能推理算力


315 千万亿次浮点运算    / 秒


静态随机存取存储器容量


128 吉字节


内存带宽


40 拍字节 / 秒


横向扩展芯片密度


256 颗


横向扩展带宽


640 太字节 / 秒



(标注:推理加速器芯片间点对点骨干连接器、8 颗推理加速器芯片、现场可编程门阵列、搭载 Bluefield 4 的数据处理单元的主中央处理器、推理加速器芯片间点对点

连接)


英伟达超大规模计算业务副总裁伊恩・巴克表示,英伟达将 Groq LPX 机柜定位为Rubin平台的协处理器,能够实现 “AI 模型每个令牌的每一层解码性能全方位提升”,

同时这一组合也让Rubin平台具备了支撑人工智能下一发展前沿的能力 —— 满足多智能体系统的运行需求。这类系统需在对万亿级参数模型进行推理运算、处理百万

级令牌上下文窗口的同时,保障高交互性能。


在多智能体系统中,人工智能智能体的交互对象正从面对聊天窗口的人类,逐渐转变为其他人工智能智能体,这也让系统的响应速度要求发生了新的变化。对于人类而

言,每秒生成 100 个令牌的速度已属可观,但对于人工智能智能体来说,这一速度却十分缓慢。伊恩・巴克描绘的多智能体系统未来图景中,Rubin图形处理器与格罗

克推理加速器的组合,将把人工智能智能体间的交互吞吐量从目前每秒 100 个令牌的水平,提升至每秒 1500 个及以上令牌。


Groq 3 LPU 芯片的加入,将进一步强化Rubin平台在低延迟推理领域的竞争力,助力其应对行业挑战者。赛睿博拉斯公司凭借晶圆级引擎技术,集成了海量静态随机存

取存储器与算力单元,能为先进模型提供低延迟推理运算,该公司还多次指出英伟达图形处理器在低延迟推理场景下的短板。包括开放人工智能公司在内的头部客户,

均已采购赛睿博拉斯的算力服务,借助其平台的低延迟优势运行前沿人工智能模型。


伊恩・巴克还透露,Groq 3 LPU 的推出或会降低Rubin CPX 推理加速器的应用比重,英伟达目前正重点推进 Groq 3 LPX 机柜与Rubin平台的集成工作。尽管他并未

透露更多细节,但在当前内存资源紧张的行业背景下,这一研发重心的调整实则合乎情理 ——Groq 3 LPU 与Rubin CPX 推理加速器的定位相近,均为提升推理性能

的专用芯片,而 Groq 3 LPU 无需像Rubin CPX 加速模块那样,搭配大容量第七代图形双倍数据率存储器。