据消息,2024年4月28日,中国移动在2024计算网络大会上正式发布大云盘石DPU。该芯片带宽达到400Gbps,属国内领先水平,并将应用于移动云新一代大云盘石DPU产品,实现关键技术自主可控。
图:中国移动盘石DPUV4.0
所谓DPU(DataProcessingUnit)就是数据处理单元。顾名思义,这是一款专门为数据处理而设计的芯片。作为继CPU、GPU之后的第三主力芯片,DPU已经成为几乎所有云厂商乃至海外芯片巨头关注的焦点。比如英伟达斥资69亿美元收购Mellanox,AMD斥资19亿美元收购Pensando,仅仅是为了DPU。
中国移动、云豹智能、信息通信研究院联合撰写的DPU白皮书《云计算通用可编程DPU发展白皮书(2023年)》指出:“随着人类生产力进入算力时代,传统以CPU为中心的架构正在遭遇算力瓶颈,多元化的算力需求迫切需要软硬件架构的全面变革。算力技术的发展必将遵循“软件定义一切,硬件加速一切”的理念,重构算力基础设施。通用可编程加速单元DPU将成为算力新核心,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。”
但事实上在DPU推出之前,这款芯片已经经历了几代的更迭。
一开始,数据中心的数据处理工作是由CPU完成的,而网络传输任务则由专用的传统基础网卡NIC(又称网络接口卡)来处理。具体工作流程是网卡将用户需要传输的数据转换成网络设备可以识别的格式,然后将数据交给CPU进行处理。
但随着网络规模不断增大,新需求不断涌现,网络和存储数据量不断增加,进而带动数据中心网卡端口速率从10G向25G快速演进、100G甚至200G及以上,给CPU带来新的压力。这时,一种旨在减轻CPU部分处理负载、进一步提高数据中心效率的智能网卡(SmartNIC)进入了公众的视野。据了解,SmartNIC除了具备传统基础网卡的网络传输功能外,还提供一定的硬件卸载和加速能力,释放主机CPU的部分计算资源。
不过,在后续的发展中,SmartNIC也捉襟见肘。例如,由于它不包括通用处理器CPU,这意味着主机CPU仍然需要执行控制平面管理以及网络和存储协议的大部分处理,这持续消耗大量主机资源。而且,随着数据中心网络速率不断提升至100G、200G甚至更高速率,主机不仅会消耗大量宝贵的通用CPU资源来对流量进行分类、跟踪和控制,其性能也已无法满足数据中心的要求。更高的网络速度。速度和存储带宽要求。
因此,如何实现主机CPU“零消耗”,解锁数据中心向更大规模、更高带宽演进,成为云厂商下一步的研究方向,DPU也应运而生。
从设计角度来看,DPU在硬件架构上增加了通用处理单元CPU和丰富的硬件加速单元,从而有利于网络、存储、安全、管理等通用基础设施的加速和全面卸载。产品形态主要包括NP/MP+CPU、FPGA+CPU以及单片ASIC解决方案。据了解,在发展初期,基于FPGA可编程性的FPGA+CPU多芯片方案成为业界首选。
除了亚马逊之外,大多数云厂商,尤其是国内云厂商,如阿里巴巴、腾讯、百度等,都采用传统的FPGA+CPU方案,竞争压力随之而来。。随着带宽流量的进一步增加,具有价格和性能优势、兼顾专用加速器的优异性能和嵌入式通用处理器的灵活性的可编程ASIC单芯片解决方案已成为业界的最终选择,而国内云厂商也在寻求从FPGA+CPU方案向ASIC方案演进,最终促使中国移动采用ASIC开发自己的DPU芯片“盘石”。
据公开资料显示,盘石DPU芯片数据传输能力达到400Gbps,是国产DPU芯片最大传输速率的2倍,达到世界顶尖水平。
该芯片的存储容量可每秒处理一百万个数据包,远程直接数据访问(RDMA)延迟低至5微秒。
同时还具有低功耗、低成本的特点。基于该芯片构建的盘石DPU硬件板与上一代硬件板相比,功耗降低了50%,成本降低了50%。
本次发布的大运盘石DPU芯片由中国移动与生态链联合研发设计,速度达到400Gbps,达到国内领先水平。
该芯片的研发成功,是国产芯片领域的重大技术突破。也是我国DPU硬件架构不断优化、生态布局不断完善、关键技术自主可控的重大进展。
未来,盘石DPU芯片将广泛应用于中国移动数据中心的建设中。凭借其优越的性能,支持通用计算、智能计算等业务场景的使用,为云计算、边缘计算、大数据处理、AI大模型训练等提供更安全、可靠、高效的技术支持。领域,助力我国大数据、人工智能、算力网络快速发展,推动算力强国战略实施。