远超英伟达H100!英特尔最强AI芯片登场

2024年04月14日
首页博客

4月9日,Intel在“IntelVision2024”大会上正式宣布推出旗下最新人工智能芯片Gaudi3全新至强6处理器,进一步拓展了其Intel人工智能产品路线图。

Intel声称,与NVIDIAH100芯片相比,Gaudi3芯片的平均推理提升50%,能效平均提升40%,运行人工智能模型的速度是1.5倍与H100相同,而成本仅为H100。一小部分。这款产品将与Nvidia最新的H200大致相当,在某些方面甚至更好。

Intel预计Gaudi3芯片将在今年第三季度大规模向客户提供,戴尔、惠普、联想、超微电脑等公司将成为首批客户。受此消息影响,英特尔股价在美股交易期间短线飙升逾2%。

英特尔CEO基辛格表示,到2030年,半导体市场规模将达到1万亿美元,AI将是主要驱动力。英特尔预计2024年出货4000万台AIPC,以及超过230种设计,涵盖轻薄PC和游戏手持设备。基辛格介绍,将于2024年推出的下一代英特尔酷睿Ultra客户端处理器家族(代号LunarLake)将拥有超过100TOPS的平台计算能力,并在神经网络处理单元(NPU)上带来超过46TOPS。TOPS算力,从而为下一代AIPC提供强有力的支持。

01 Gaudi3芯片

据了解,Gaudi3采用台积电5nm工艺。在芯片设计方面,Gaudi3转向了具有两个计算集群的chiplet设计,而不是Gaudi2.计划使用的单个集群。

Gaudi3拥有8个矩阵数学引擎、64个张量核心、96MBSRAM(每个Tile48MB,提供12.8TB/s总带宽)和128GBHBM2e内存、16个PCIe5.0通道和24条200GbE链路。计算核心周围是八个HBM2e内存堆栈,总容量为128GB,带宽为3.7TBps。

与上一代相比,Gaudi3的性能、FP8性能和网络性能在BF16工作负载方面是Gaudi2的两倍(Gaudi2内置24个100GbERoCE网卡),HBM容量是Gaudi21.5倍。

此外,Gaudi3器件中的张量核心支持与Gaudi2相同的FP32、TF32、BF16、FP16和FP8数据格式,但不支持FP4精度。相比之下,Nvidia的新型BlackwellGPU将支持FP2精度,而Nvidia现有的HopperGPU则不支持。

Intel表示,Gaudi3预计将大幅缩短70亿和130亿参数Llama2模型,以及1750亿参数GPT-3模型的训练时间。此外,Llama7B、70B和Falcon180B大语言模型(LLM)在推理吞吐量和能效方面也表现出了优异的性能。

无论是FP8还是FP16/BF16,大型语言模型运行在多个AI加速器上的情况并不少见。例如,要在FP16上推断具有1750亿个参数的大型模型,您需要至少5个具有80GBHBM内存的H100来将模型放入其中。为此,Nvidia和AMD分别使用称为NVLink和InfinityFabric的专用互连,它们提供约900GBps的带宽,将八个或更多AI加速器拼接在一起。相比之下,IntelGaudi3使用常规的旧RDMA融合以太网(ROCe)。

然而,Gaudi3有24个200GbE接口,总带宽为1.2TBps。24个链路中的3个专用于节点外通信,剩下1TBps用于服务器内的芯片到芯片通信。英特尔认为,通过将以太网卡集成到其Gaudi3加速器中,也将更容易扩展以支持使用传统骨干叶架构的512甚至1,024节点集群。

02 大规模AI计算已进入系统竞争

现在谈到大型模型训练芯片,英伟达是首选供应商,但这棵摇钱树早已被其他芯片厂商和创业新秀瞄准,英特尔是其中之一。随着Gaudi3的正式发布,Intel正试图打破这种垄断局面,这将为市场带来另一种选择。

大规模AI计算进入系统竞争。无论是冠军Nvidia,还是英特尔、AMD、Cerebras、Groq等追赶者,他们都明显加大了对先进chiplet封装、先进存储和先进互连技术的重视。通过超越工艺和光罩限制来优化芯片内部设计,并将技术升级延伸到大规模集群系统,为整个数据中心的AI计算提供更高的性能和能效加速。

除了Gaudi3之外,Intel还在IntelVision大会上分享了数据中心Xeon处理器和AIPC的进展,并远程连接Intel晶圆厂的同事,演示先进的AI技术如何用于AIPC上辅助芯片检测。

英特尔宣布对其下一代数据中心、云和边缘处理器英特尔至强6进行品牌更新。配备能效核心的至强6(之前代号为SierraForest)将于2024年第二季度推出,随后将推出配备性能核心的至强6(之前代号为GraniteRapids)。

配备性能核的英特尔至强6包含了对MXFP4数据格式的软件支持,与使用FP16的第四代至强处理器相比,可将下一个token的延迟时间缩短至原来的15%,能运行700亿参数Llama-2模型。

英特尔预计将于今年出货4000万台AI PC,以及超过230种的设计,覆盖轻薄PC和游戏掌机设备。新一代英特尔酷睿Ultra客户端处理器家族(代号Lunar Lake)将于今年推出,具备超过100 TOPS平台算力,NPU算力超过46TOPS。