性能超越H100!老黄的劲敌来了 一文了解Intel最新Gaudi 3 AI加速芯片
AI的纷争越来越激烈,老黄跟苏妈都相继推出了自家的AI加速器。不过大家似乎忘记了还有一个芯片巨头 Intel。
在美国亚利桑那州Intel Vision 2024会议上,Intel发布性能最强的新一代Gaudi3 AI 加速芯片。当然,也包括全新的下一代英特尔至强6处理器等产品。
不过,我们今天的重点还是看看这个号称 超越H100 的Gaudi3 AI 加速芯片。
Intel的Gaudi AI加速芯片已经推出了三代了,现有的Gaudi2芯片已经是两年前的产物,在2023年7月才正式引入国内,不错的性能与性价比一度成为不少大厂的优选。
从下图可以看到,Gaudi2 AI芯片为台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MB SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe 4.0 x16,最高功耗800W。
而全新一代的Gaudi3 AI芯片显然更胜一筹,专为高性能、高效率的生成式 AI 计算而生。其采用台积电5nm工艺打造,每个加速器都具有独特的异构计算引擎,由64个AI定制和可编程TPC和8个MME组成,支持128GB HBMe2内存以及配备96MB SRAM缓存。
相比上代产品,Intel的 Gaudi 3带来了4倍的BF16 AI计算能力提升,1.5 倍的内存带宽以及 2 倍的网络带宽提升。
同时,每个Gaudi 3当中都集成24个200 Gb以太网端口,提供灵活且开放标准的网络。而Gaudi 3 的PCIe 功率为600w,带宽为每秒 3.7TB。
当然,AI芯片最重要的还是性能表现,在AI模型算力中,相比NVIDIA的H100 GPU,Gaudi3 AI芯片的模型训练速度、推理速度都更出色,分别提升了40%和50%,平均性能提升达到了50%,能效更是提高了40%,更重要的是,Gaudi3 AI芯片的成本比H100更低,妥妥的性能更强,价格更低。
即使是面对NVIDIA的H200 GPU,Gaudi 3也毫不逊色。在LLAMA-7B以及LLAMA-70B的部分场景与H200基本是伯仲之间,差距基本在10%以内。如果是在Faicon 180B的大模型里,Gaudi 3的推理吞吐量和能效则非常出色,最高甚至可以领先H200 30%以上。
性能表现想必已经足够惊艳你了,Intel还为Gaudi 3提供多种灵活的形态,包括OAM兼容夹层卡、通用基板、PCIe扩展卡。其中OAM的型号是HL-325L,其实就是单颗Gaudi 3的性能表现,TDP设定为900W,一般用于风冷型服务器。
更高端的HLB-325则包含八颗 Gaudi 3芯片,提供 14.6 PFLOPS FP8 性能,1TB带宽速率达 29.6TB/s的HBM2e 内存,64个线性计算引擎,192条200GbE 网络总线,9.6TB/s吞吐能力。
当然,还有更加精致小巧的版本,适合普通用户选用。PCIe 版本型号为 HL-338,提供单卡 1835 TFLOPS FP8 峰值性能,128GB HBM2e 内存,8个线性计算引擎,24条200GbE网络总线,600W TDP,整张卡仅有两槽宽。
硬件够硬,软件也要够软。软件生态方面,Intel也在发力,Gaudi 3将针对生成式AI提供端到端全栈AI软件解决方案,包括嵌入式软件、软件套件、AI软件、AI应用等。
Gaudi 3 AI加速芯片兼具高性能、经济实用、节能、可快速部署等优点,能够充分满足复杂性、成本效益、碎片化、数据可靠性、合规性等AI应用需求。
Intel在Vision 2024上也同步介绍了这款芯片的生产节点,计划在今年第三季度向客户发货Gaudi 3 AI芯片,包括联想、惠普、Dell和Supermicro等OEM厂商都会使用这款新品构建系统。
随着Gaudi 3的正式发布,当前AI芯片市场呈现出NVIDIA B200、AMD MI300系列和Intel Gaudi 3三足鼎立的格局。
Intel希望能够利用长期的 AI 技术积累,通过开放生态系统的力量以及出色的Gaudi 3硬件基础,乘上AI的热潮。
此次的Gaudi 3 AI加速芯片虽然有着出色的性能与极具竞争力的定价,不过AI领域绕不开的还有生态,这方面NVIDIA依旧是遥遥领先与红蓝两家,现在AMD与Intel在硬件层面已经追上来了,在软件层面我们也期待它们能够持续进步,让AI新技术普及、普惠到各行各业。