“当数据量逐步扩大到一定规模时,传输就会给系统带来很大压力,尤其是系统资源占用率愈发明显。”

近日,笔者翻出来一台很多年前的老PC,准备配好新SSD再重置一下做临时办公用。但在传输大量文件阶段,发现系统出现了明显卡顿,CPU资源占用率很高。遂瞬间想到了上文中这句话,不禁感叹:老机器的网络与存储,在海量数据面前已经捉襟见肘了。设想一下,如果能够给网络、存储单独配一颗处理器,那应该就可以解决了。

DPU问世,为数据中心打开一扇窗

其实在企业级应用中也是如此,数据中心里的服务器每天都在处理着海量计算任务,但有些负载需要计算、传输大量数据。像Allreduce、Barrier这样的“多打一”通信情况时,传统冯·诺依曼架构计算架构就会造成网络壅塞。无论是提升带宽还是降低延迟,都难以解决。

应该怎么办呢?

这时候,DPU出现了!

DPU属于新型处理器,是继CPU和GPU之后,数据中心场景中的第三颗重要的算力芯片,主要控制数据传输并为其加速,为高带宽、低延迟、数据密集的计算场景提供计算引擎。

“DPU为计算架构提供了创新思路。传统架构中,所有操作都需要通过CPU来执行。以OVS操作为例,当系统运行OVS时,会消耗很多CPU资源,并且OVS的数据包转发效率也会变低。如果把OVS操作放在DPU上,则能够让数据包转发率迅速提升,并大幅度降低CPU利用率。”

谈到DPU的实战应用,NVIDIA网络事业部亚太区市场开发高级总监宋庆春这样介绍道。

正如笔者之前期望的那样,在应用的推动下独立DPU诞生,它解放了CPU,并大幅度提升了服务器网络性能。其中还有一点尤为重要,像OVS这样的虚拟网络应用可以完全放到DPU上,实现了OVS与CPU业务之间的隔离,让业务和OVS运行在两个独立的平面上,大幅度降低了业务的长尾延迟。

OVS是一种以软件形式存在于虚拟网络中的交换机,它与传统的网络部署中的物理交换机充当的角色相似,可进行划分局域网、搭建隧道、模拟路由。OVS负载应用应用范围非常广,因此上述对比极具代表性。

BlueField-3,业界第一款400G速度的DPU

目前,最新一代的DPU是NVIDIA推出的BlueField-3,为AI和加速计算而设计。BlueField-3针对多租户、云原生环境进行了优化,提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。

据宋庆春介绍,从BlueField-2到BlueField-3,它的计算能力提升了5倍;同时它对加解密的处理能力提升了4倍;存储性能也可以提升了3-4倍,可以说性能实现了非常大的跨越。未来到了BlueField-4以后,还有望将GPU集成到DPU里来,将DPU打造成一个完整的数据中心。

BlueField-3是业界第一款400G速度的DPU,无论是用IPSec还是TLS,加解密速度上都可以达到400Gb/s。相比之下,如果在用CPU来做IPSec或者IOP/s,即使搭配100G、200G网络,它的性能也只能跑到20-40Gb/s级别,并在加解密方面耗费大量CPU资源。

BlueField-3集成了16核心ARM处理器,从它整个Offload(卸载)功能来看,一个BlueField-3的DPU可以实现的offload功能相当于300个x86 CPU核。

在配备DPU之后,通过独立且更加专业的性能表现,能够有效释放宝贵的CPU资源,将其“还给”关键业务应用。

目前,主流存储如果能达到1个million(百万级)的IOP/s性能已经是非常不错了。而在BlueField-3上,可以在不消耗主机CPU的情况下而达到18million的IOP/s。

Project Monterey相信大家都有所了解,它是VMware打造的全新基础架构体系。可以让各种应用自由地去消费它们所需的基础设施的资源,包括从不同的位置、物理服务器上去调取所需要的内存和其他的资源。

目前,NVIDIA和VMware正在共同开发Project Monterey,并将Hypervisor里的一些功能安置到DPU上,一些Hypervisor的部分工作,像Firewall(防火墙)、存储、管理等工作将由DPU来取代CPU。

DPU能够将业务和基础设施操作完全隔离起来,在提升性能的同时实现了更高安全性。这也是VMware第一次将原始代码开放给了合作伙伴,来共同开发基于VMware企业级的云解决方案。

DPU助力高性能计算

在传统高性能计算上,HPC的通信及存储负载都是由CPU来运行,占据了较高系统资源。而现在,我们可以来把这些负载从CPU转移到DPU上,这样就实现了通信框架、安全、存储和业务的隔离。CPU及GPU就可以将100%的资源都可以用在业务上,大大降低业务的长尾延迟,从而提升性能。

据宋庆春介绍,像在P3DFFT这种典型的HPC应用中,DPU可以带来30%-40%的性能提升。

高性能计算的云化已经成为一个趋势。在今年的GTC上,NVIDIA和英国的剑桥大学联合构建Cloud-native supercomputer。

通过DPU可以来把计算业务单元和安全放在两个不同的区域,这样就可以在提升性能的同时,保障安全性。所以,DPU对于未来的安全计算也是一种非常重要的技术。

UCloud:通过DPU全面优化裸金属

谈了DPU的诸多优势,那么在当今炙手可热的云平台上,能够给用户带来多大性能提升呢?

据UCloud的资深技术专家马彦青介绍,基于NVIDIA BlueField DPU打造的高性能裸金属物理云方案,将原来的10G网卡提升到现在DPU 25G,通过双网口bonding将带宽提升至50G。在性能与可靠性等方面都实现了巨大的提升,并且有效降低了裸金属云的成本。

云厂商的传统方式是通过本地磁盘构建存储系统,但缺点也显而易见,就是RAID卡或磁盘经常出现损坏现象,并且本地磁盘型号众多,导致维护资源池过于庞大,给整体管理和维护带来巨大挑战。

UCloud利用DPU和DOCA重构了裸金属存储架构。在新的架构里,UCloud通过采用RSSD云盘作为后端存储,其核心基于DPU的NVMe SNAP功能,这样就实现了计算和存储的解耦。解耦计算与存储的优势就像使用云一样,可以实现秒级磁盘复制和分钟级交付,拥有免装机、磁盘按需使用、故障快速迁移、三副本安全可靠等优势。

在实际测试中,基本相等的条件下DPU相比软件执行的Hyperscan,常规流量以及ASIC HTTP流量正则匹配都有着大约3倍多的性能提升。另外在加解密方面,DPU卡也可以对SSL、TLS可以进行加解密。IPSec算法能够实现硬件的卸载,把CPU的算力释放出来,这就是DPU的巨大价值。

马彦青表示,UCloud的目标就是通过一张卡来实现虚拟化和裸金属架构的统一。计算、存储和网络做到统一,通过DPU卡实现直接相通,再通过软件构建起一个完全共享的高效率网络。

“GPU还很年轻,前面的路还很漫长,与之相关的创意和思想源源不断,所以每6个月我们都可以有新的创意出台。”这是2009年GPU大发展时期,NVIDIA创始人、CEO黄仁勋的一句经典语录。

十几年后的今天,DPU也像当年的GPU一样,以创新为目标,在一条独立的赛道上开启了新征程。它的出现为数据中心注入了全新的活力,前进的动能势不可挡。