上个月,Mercury Research公布了2021年第一季度的x86 CPU市场份额,AMD在服务器市场获得了自2006年以来最高的单季增长率——2006年第二季度,AMD以26.2%的(x86)服务器CPU市场份额达到了历史上的最高点。

有国外媒体分析,按照目前的增长趋势,大约只需要一年的时间,AMD可以重新达到25%左右的(x86服务器CPU)市场份额。

三代EPYC,延续创新

15年前的x86处理器在服务器市场上,远没有今天这么强的统治力。但正是当年AMD Opteron引领的技术转型,包括但不限于64位(AMD64)、多核、集成内存控制器……为x86 CPU战胜服务器市场上的众多强敌,打下了坚实的基础。

Opteron不仅助力美国互联网巨头们的数据中心发展,还见证了云计算的崛起——AWS赖以发家的S3(Simple Storage Service,简单存储服务)和EC2(Elastic Compute Cloud,弹性计算云),正是在2006年先后推出的。

Google在2008年7月9日上线其第100万台服务器——基于AMD CPU的四路平台

以EPYC重回服务器市场之后,统治全球和中国公有云市场的七大巨头,都已经是AMD的用户。预计在2021年内,基于EPYC处理器的云计算实例,类型将达到400个以上,大约是第三代EPYC推出之前的两倍。

自新冠疫情以来,像云计算一样把分散于各地的人们联结起来的热门应用,如腾讯会议、Zoom、微软Teams等,也构建于AMD EPYC CPU之上。其中,历史最短的腾讯会议,在2020年春节过后迅速崛起,离不开腾讯云星星海SA2云服务器在8天内增加100万核的扩容支持,第二代EPYC处理器“核多任性”的优势展露无遗。作为腾讯云首款自研服务器,星星海SA2服务器一战成名。原本,“星星海”只是腾讯云自研服务器中AMD产品线的代号,在2020年的高光表现之后,现在已升级为腾讯云自研服务器的对外品牌。

腾讯云最具价值专家(TVP,Tencent Cloud Valuable Professional)们应邀参观大量部署星星海服务器的腾讯云数据中心

EPYC家族继承了Opteron的创新精神,在架构上不断演进、完善,提高单核和多核的计算能力。

L3 Cache一体,CCD性能提升

为了在制程工艺进步放缓的大背景下,让CPU拥有更强的核芯和更多的核芯数,同时提高制造的良率、降低成本,EPYC系列采用了多die组合的模块化设计。

从代号Naples的第一代EPYC,到代号Rome的第二代EPYC,架构上最大的变化是从4个同构的14nm CCD(Core Complex Die),变成8个7nm CCD环绕居中14nm IOD(I/O Die)的“8+1”异构布局:CCD增加一倍,所以核芯数从32到64;每CCD的L3 Cache(三级缓存)也增加一倍,所以总的L3 Cache从64MB跃升至256MB。

今年3月,AMD发布代号Milan的第三代EPYC(7003系列),继承了上一代8个CCD和1个IOD的Chiplet(小芯片)设计,主要的变化发生在CCD内部。

首先,CPU核芯更为强大,通过Load/Store、前端、微操作Cache、分支预测、执行引擎、Cache预取等多个环节的累积改进,每时钟周期指令(Instruction Per Clock,IPC)的性能提升达到19%。

其次,CCD更像一个整体了,为什么这么说呢?

前两代EPYC处理器,每个CCD都由2个CCX(Core Complex,核芯复合体)组成,每个CCX包括4个核芯及其共享的8MB(7001系列)或16MB(7002系列)L3 Cache。2个CCX之间通过片上的Infinity Fabric(IF On-Package,IFOP)互连,跨CCX访问L3 Cache会增加时延(latency),不利于有大量数据需要在更多核芯之间共享的应用。

EPYC 7003系列消除了CCD内部的壁垒(用某位AMD员工的话说就是“打通了隔断”),直接将CCX扩展到8个核芯,CCD(≈ CCX)内部的32MB L3 Cache形成一个整体,每个核芯直接访问的L3 Cache倍增,加速了核芯与L3 Cache的通信,可以有效降低内存延迟。

在TDP(Thermal Design Power,热设计功耗)不变的条件下,EPYC 7003系列的CPU加速频率比EPYC 7002系列有5~10%的提升;为单核性能优化的高频型号从24核扩展到32核,TDP也达到顶级的280W。

伴随着EPYC 7003系列的发布,腾讯云推出了基于自研星星海服务器的SA3实例。在SA2这代,腾讯云选择的48核定制款第二代EPYC处理器,基频(Base Frequency)达到2.6GHz,明显高于公开发售的48核型号(2.2~2.3GHz);SA3升级到64核第三代EPYC处理器,最大实例规格从SA2的180 vCPU、464GB内存提高到232 vCPU、940GB内存,分别提高近30%和一倍,可见腾讯云对其寄予的厚望。

根据腾讯云官网的数据整理的SA3与SA2实例对比,可以看到SA3在主频基本保持不变的情况下,多了很多高规格实例,总的实例数量增加近50%

高性能计算(High Performance Computing,HPC)是计算皇冠上的明珠,也是AMD重点发力的领域之一。在2020年11月公布的TOP500榜单中,两套基于AMD EPYC 7002系列CPU的超算系统名列前10,代号Milan的EPYC 7003系列能创下怎样的佳绩呢?

3D V-Cache,再上层楼

本月初在Computex的主题演讲上,AMD CEO苏姿丰(Lisa Su)介绍了与台积电在3D封装技术上的合作,将Chiplet封装技术与芯片堆叠技术相结合,开发出3D芯片堆叠技术,实现3D V-Cache(3D垂直缓存)。展示的原型设计基于与EPYC 7003系列同样采用Zen 3架构的Ryzen 5000系列处理器,通过在一个CCD上方直接堆叠一个64MB的7nm SRAM,将L3 Cache容量原地增加2倍,达到96MB。3D缓存直接与Zen 3的CCD结合,通过硅通孔(Through Silicon Via,TSV)在堆叠的芯片间传递信号和电能,支持超过2TB/s的带宽。

3D V-Cache真是直接在CCD的L3 Cache上方“盖楼”,两边核芯所在区域上方用结构硅填平。不难想见,这种3D Chiplet技术还有进一步的发展空间

采用这种混合结合的方法,TSV技术能够提供的互连密度是2D Chiplet的200多倍,是其他3D堆叠方案的15倍以上。不仅集成效率更高、密度更大,Die之间的接口采用铜到铜的直接结合,没有任何形式的焊接凸点,极大的改善了热设计、晶体管密度和互连间距,而且单位信号的能耗只有微凸点3D法的三分之一。

这个技术如果应用于EPYC 7003系列,每CPU最大L3 Cache容量将达到768MB,对访存密集型应用是重大利好。苏姿丰表示,3D V-Cache将于今年年底前投入生产。

无独有偶,AMD与HPE旗下Cray合作的E级超算系统“Frontier”也将在今年晚些时候安装。据猜测,这套算力达到1.5 exaflops的超级计算机将采用定制的Milan芯片,核芯与EPYC 7003系列相同,但是改用新的I/O和内存芯片(IOD?),如果能加上3D V-Cache,无疑是如虎添翼。

三重安全,SEV保障

除了性能之外,当代以及未来数据中心越来越关注安全,不管是公有云,还是企业内部私有云,用户都希望获得更高级别的安全隔离,或者更高等级的敏感数据保护。

在发布第一代EPYC处理器的时候,AMD就将数据安全问题提升到极高的层次,在EPYC处理器中有一颗专用于安全的芯片,因为其硬件安全特性,比如分页架构保护,可防范Meltdown(熔断)、Foreshadow(预兆)及其变种等漏洞造成的数据泄露风险。

从Naples到Rome,再到现在的Milan,AMD不断在EPYC处理器设计了诸多防范功能,比如信任根、能够完全透明、用户无感知地进行直接内存加密;当用户将EPYC用以支撑虚拟化环境,并创建应用之后,虚拟机与虚拟机之间实现内存页表加密之后,能够极好地防范黑客攻击或非授权访问。这也是在云或虚拟化环境中,用户对安全性的一大诉求。

在Milan上市时,AMD就宣布系统安全性也是Zen 3架构中调整最大的部分,可以保证用户数据的安全性,确保系统的安全可用。

具体来说,Zen 3架构对SEV进行改进,限制中断的注入,限制恶意管理程序注入SEV-ES访客中断/异常类型,能够将调试寄存器添加到交换状态中。

另外,Zen 3架构还新引入了SNP安全嵌套分页,在现有SEV-ES对虚机(VM)内存和虚机寄存器进行加密保密的基础上,增加了系统完整性保护,防止恶意管理程序通过重放、损坏、重新映射进行攻击。

Zen 3架构提供的CET Shadow Stack(CET影子栈),以此来防止ROP编程攻击,更好地确保系统安全性。Zen 3架构持续运用了AMD在安全处理器核心上的设计,把安全处理器集成到IO die上。同时,为密钥生成、密钥管理提供了加密功能,并通过启用硬件验证实现了以硬件信任更为基础的平台安全。

当然,优秀的处理器还需要全面的生态系统支持才能发挥出更重要的作用,基于性能强劲的EPYC处理器,AMD加速构建了一个全面的生态系统,涵盖了硬件、平台、操作系统以及应用等多个领域。这两年,AMD加快与ISV合作伙伴的合作,通过与生态伙伴共同构建基于场景的解决方案,现在随着第三代EPYC处理器的推出,AMD的可用解决方案数量增加了一倍以上,让目标市场、终端用户内获得更高计算效能,帮助利用最新的技术,实现追求极致的业务回报。