“京东云提供计算服务”,当你在手机上打开京东APP的时候,总会在最下面看到这行小字。

不过我敢打赌,你在看到这篇文章之前根本没发现过这行字。虽然它的确很小,也的确被放在了最下方,但它却是安全、稳定的保障。正如云计算所代表的无感知存在一样——意识不到的云服务就是最好的云服务。而一旦你发现了它,就意味着它可能出现了某些故障,正如当停水停电的时候我们才意识到水电的可贵。

云服务还会出故障么?答案是一定的。其实作为全国乃至全球性的电商平台,仅就京东商城来说每年的交易量就是天文数字,这背后用于支撑的系统更是经历了多重挑战。比如大家都很熟悉的618、双11等大促活动,特别是定点秒杀所带来的峰值压力是世界性的难题,而要想“扛住”这些压力,就需要一款强壮、稳定、安全的云平台,这也正是京东云必须承载的使命。

高RAS特性迎来全新应用场景挑战

如今京东云覆盖各个行业领域超过2500家的合作伙伴,随着用户规模不断增大,特定行业与云原生类用户对应用开发和运营模式提出许多新的要求,传统用户也正在将更多复杂业务迁移上云, 这些持续变化的技术需求对京东云服务提出新的挑战。

RAS特性首当其冲。RAS包括了Reliability(可靠性)、Availability(可用性)、Serviceability(安全性)三个词的首字母,其作用在于确保整个系统尽可能长期可靠的运行而不下线,并且具备足够强大的容错机制。这个词最早来自于大型主机,但是伴随着分布式x86架构成为主流,伴随着云应用成为行业发展的必然选择,RAS特性的重要性再一次凸显出来。

在以往的主机时代,某台系统某个部件的损坏或故障,只会造成单一系统的崩溃或者宕机;但是在公有云或者混合云的环境当中,同一台服务器上可能运行了若干不同业务、不同场景的虚拟机,一旦物理设备崩溃,将会波及众多用户,同时也会对运营商自身造成巨大损失。而在现有的故障集合中,内存错误是最高发同时也是最严重故障之一。

即便是对于个人来说,我们在日常使用中也经常会遇到电脑内存故障的问题,更何况对于成百上千台服务器的数据中心来说,类似的情况更是司空见惯。来自Google的一份调查报告显示:内存错误率其实比想象中的要高,“所有在用设备中大约1/3每年至少遇到一次内存错误,平均每年发生的可修正错误为22000次。”

这么高的故障率并不是危言耸听。据统计,京东云数据中心内存错误在整体硬件故障中的占比达到37%,换句话说每三次故障中就有一次是因为内存导致的。为了尽可能将内存故障率降到最低,京东云积极寻求多种方案,希望通过对内存错误的发现与预测,通过在线快速迁移恢复技术, 减少内存错误对云主机造成的影响,进而建立完善的云主机故障预测和恢复系统。

在评估了众多解决方案之后,京东云找到了英特尔,希望从源头上解决问题。

英特尔MCA Recovery+MFP打造内存高效稳定

京东云通过引入英特尔MCA Recovery与Memory Failure Prediction(MFP)技术,结合京东云的故障恢复系统,用来降低内存错误对京东云主机稳定性的影响。所谓MCA的全称叫做了Machine Check Architecture,这是一种基于底层架构的智能诊断系统,用户可以在系统的BIOS层面实现对于大大小小错误的管理——大到上次系统宕机的元凶到底是谁这种推理破案故事,小到内存哪个颗粒或者哪个链路哪跟线上出现了一个bit错误之类,都可以轻松搞定。

另一项名为英特尔MFP的技术则可以通过对内存微观层面故障数据进行学习和数据挖掘,智能训练和建立DIMM健康评估模型 (DHAM),并实时监控主机内存运行状况,分析主机不同层面的内存错误,包括DIMM、rank、bank、column、row和cell等, 将主机内存状况与 DIMM 健康评估模型进行对比,以预测发生内存故障的可能。

从被动到主动,从应用到实践,如今在英特尔MCA Recovery与MFP的“双重加持”下,京东云主机因内存故障造成的系统崩溃频率已经大大降低。甚至当某一个节点出现潜在故障的可能时,英特尔MFP 技术就可以第一时间预警并提供热迁移,避免潜在内故障导致的云主机宕机。而如果故障发生在MFP预测范围外,京东云系统则可以通过MCA Recovery进行恢复,防止页面被其它应用/进程再次使用,并将故障节点上报给服务器管理系统进行内存更换。

如今,已经部署英特尔MCA Recovery+MFP的京东云将计算节点主机的宕机率减少了40%,内存故障条件下的热迁移成功率提高了50%,保障了云主机99.975%的可用性。“通过这一技术将有效提升京东云服务的可靠性和稳定性”,京东科技京东云事业群硬件研发负责人陈国峰如是说。

助力超大规模平台云上创新,英特尔多管齐下保障应用安全

除了京东云如今几乎所有的公有云都采用了英特尔至强可扩展处理器平台,英特尔提供的解决方案也不仅仅局限于计算、存储的单一层面,而是包括了网络、安全、管理等多个领域。正如英特尔6大支柱所彰显的那样,英特尔也为云服务商们许多了多种解决方案,满足不同应用场景的需求。

比如在网络领域,英特尔以太网解决方案就可以提供高达100 Gbps的网络带宽,并支持网络功能虚拟化(NFV) 在内的多种技术,搭配智能网络接口卡 (SmartNIC)、支持Tofino的P4可编程交换机等平台,可以帮助众多超大规模云服务商和大型数据中心提供高带宽、低延迟的快速响应能力。

人工智能也是当下应用的热门,各大互联网公司也提供了多种场景的应用服务。但你可能不知道,相对于采用加速器实现的智能计算来说,英特尔至强可扩展平台自身就提供了深度学习加速技术(英特尔DL Boost),可以让客户不需要额外的投资就能够获得针对卷积神经网络的、计算密集型工作负载优化的环境。有数据统计,这种技术可以帮助客户获得高达3.4倍的性能提升。

包括在安全领域,英特尔也借助于QuickAssist 技术为加密、散列、公钥 加密和压缩等计算密集型操作提供硬件加速,实现高达 4.3 倍的效率提升。与此同时,该技术还可以帮助保护加密私钥。在客户进入需使用私钥的虚拟机之前,私钥都处于加密状态。只有芯片中的英特尔QAT能够解密此私钥,从硬件层面实现了底层的应用保护。

从计算到存储,从网络到安全,从硬件到软件,英特尔所实现的是对云服务商的全方位防护,从底层加密到中层虚拟化再到上层智能应用都有,更重要的是这些并不需要客户进行额外的投资或者增加设备,从而在管理效率、成本控制等多个方面实现了提升。

当下,云计算已经如水、电、天然气一样与我们的生活息息相关,我们在手机上的每一次操作、每一笔下单都对应到了后端数据中心的相应计算操作。无论是京东云还是京东商城,抑或是其他超大规模的云服务商,英特尔都在通过一致、可预测的性能表现;广泛、优化的软件生态系统;出色的性价比;跨云服务与多云协同等技术与生态优势,为用户提供最广泛的可用性,为客户们提供更高效、更安全、更可靠的平台,也帮助更多云上的各种应用加速,推动数字化快速发展。