2020年的世界经济,可谓风云变幻。截止到目前,新冠疫情仍在全球扩散蔓延,随着秋季来临,欧美地区新冠疫情反弹加剧。为防控疫情蔓延,各国再次收紧防控措施。10月底法国、意大利、英国等宣布开始实施第二次全面“封锁”,给经济复苏带来不利影响。

IMF在10月报告预测,2021年全球经济将增长5.2%,低于6月预测的5.4%,并强调全球经济活动恢复到疫情前水平存在难度,而且很有可能出现倒退。

受疫情影响,IT行业也呈现出冰火两重天之势,一些初创型企业受业务影响步履艰难;而基于互联网主营线上业务的企业则出现了跨越式增长。2020年下半年,我国经济实现增长,并成为全球唯一正增长的主要经济体。同时,“新基建”与“增强产业链能力”等政策也极大促进了IT行业的发展,大家似乎都已经听到IT企业们“摩拳擦掌”的声音,新的机遇就在眼前。

疫情之下,IT行业机遇与挑战同在

云计算方面,2020年的亚马逊re:Invent大会如约而至,在AWS的主题演讲中,有三个案例给笔者留下了深刻的印象,他们都是新冠疫情爆发期间发展速度最为迅猛的企业,因此极具代表性。

第一个案例是Zoom,它现在的股票市值非常高,基本相当于IBM+Dell,震撼不震撼?Zoom能够飞速发展的原因想必大家都非常清楚了,疫情爆发后绝大部分公司都通过远程电话会议来部署工作,而AWS为Zoom的飞速发展提供强有力的支撑。用AWS的话说就是“Zoom几乎每天都在增加很多的需求,AWS一直在持续帮它顶住业务的快速增长。”

Peloton这家企业专门做跑步机、自行车等健身设备,主要应用在物联网方面。疫情期间很多人只能选择在家健身,因此Peloton的业务需求量猛增。

Netflix相信大家都非常熟悉了,它制作了各种各样脍炙人口的电影、电视剧。疫情之下很多上班族甚至远程办公将近一年之久,每天除了开视频会议和工作之外,只能上Netflix看片,或者待在家里跑跑步了。

因此,这些需求都非常大,AWS也是快速扩充服务器,帮他们扛起了快速增长的业务需求。AWS的供应链和基础架构功不可没。

EC2实例

去年re:Invent大会上Amazon EC2已经有270种实例,今年这一数字突破400!一年内能够有如此大幅度的增加,基本都是Nitro的功劳。Nitro将原本在通用CPU里运行的虚拟化管理程序 (Hypervisior) 抽离到了专有硬件上,从而实现高效的统一管理。

在实例拓展方面,P4D是现在最强大的机器学习训练用实例,支持400G网络;D3en在单实例上可以挂载336TB的存储,很多客户拿它做自己的Hadoop应用;G4ad实例,是用AMD的CPU加上AMD的GPU组合,实现在云端最好的图形性能和最高性价比;以及MacOS实例,使得AWS成为唯一一个同时可以提供Intel、AMD、ARM的处理器实例的云服务商。作为资源调控与管理的“桥梁”,Nitro起到了非常大的作用。

AI,将改变世界

亚马逊全球副总裁、首席技术官Werner Vogels博士在大会中发表了重要演讲,并分享了他对2021年的科技趋势的预测,其中人工智能与机器学习占据了很大篇幅。对于很多行业而言,能够带来翻天覆地改变的首选技术就是AI。

亚马逊利用机器学习技术至今,已经走过了20余年。AWS在2016年开始发力,在云上提供机器学习服务。当年只发布了三个服务,2017年开始加速,最近三年,每年新增的服务和功能超过200个,为全球人工智能工作者提供他们急需的、丰富的工具集。目前,全球有超过10万客户已经在AWS上使用机器学习服务。横跨很多行业,包括媒体、汽车、金融、制造等等,所有这些客户都在使用机器学习。

由此,我们也看到一个趋势,机器学习就像工具一样被客户所采用,部署到各个行业,并且有非常多的应用场景。

AWS大中华区云服务产品管理总经理顾凡在媒体沟通会上表示:客户之所以选择AWS的机器学习服务,主要原因有以下几点。

整个服务的宽度和深度。更有针对性的产品与服务,能够帮助用户在自己的应用场景下快速找到合适的工具。

AWS在云计算和机器学习领域里始终抱着一个开放的心态,所以大家会看到很多工具都是非常开放的,可以与客户的整个环境实现完美集成。

AWS在服务客户的时候会遵循两个原则,一是授人以鱼不如授人以渔,更多希望帮助客户把能力建立起来,赋予他工具并且教会他如何使用。在产品原型实现、客户需要支持的时候,AWS能够真正帮他们快速解决业务难题。

针对机器学习仍然在创新和迭代,在这过程中,非常重要的一点就是选择。AWS把选择权留给到客户,这些选择永远围绕着更合适的性能和成本。

如果用户在实际应用中,还会有更加复杂的机器学习、有超大规模的模型,这些模型复杂到单机单卡难以在训练方面做到更高效率,怎么办?

今天,AWS带来了Amazon SageMaker中主攻分布式训练的Distributed Training,它所提供的功能可以让用户在分布式训练方面速度提升40%,甚至更多。

去年,以AWS当时最优的一种配置针对Tensorflow、PyTorch在运行Alexa模型进行训练,分别需要28分钟和27分钟。通过AWS分布式训练的Distributed Training能够从28分钟升到6分钟;在T53部超复杂的自然语言处理模型里面,能够从几个月提速至5.9天。效率立竿见影。

Distributed Training的加速方式有两种,将模型训练拆分到几百、几千个CPU上进行。第一是数据并行引擎,对数据集进行拆分。第二是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 GPU上高效分割具有几十亿参数的大型复杂模型。因此,才能实现大型复杂深度学习模型的训练速度成倍提升。

节能减排,为行业立标杆

对于一家超大规模的云服务商而言,海量的数据中心一直令人引以为傲,但超强的算力又是一把双刃剑,能够更好地支撑客户业务,同时又带来了高能耗等问题。一直以来,AWS都在降低能耗方面努力着。

亚马逊希望在2030年完成一个宏伟的指标,要让所有数据中心100%的使用再生能源。AWS从交直流供电转换、电池、发电机等等多方面进行优化,降低能耗。在服务器方面,Graviton系列在设计之初就充分考虑到了如何节能,省掉了多余的线程和晶体管之后,能够节省能耗3.5倍。由此带来的散热等功耗也在同步下降。

目前,AWS的碳排放已经降低了88%

此外,AWS在全世界一年要买6.5GW的再生能源,包括中国都在很大规模的使用再生能源。AWS已经成为全世界使用再生能源最多的企业,并且会在2025年提前完成任务指标,即:100%的使用再生能源。

2020年全球新冠疫情肆虐,给各国经济带来了前所未有的压力,与此同时企业数字化进程也在加快,为的是进一步降低运营成本并提升竞争力。云服务商也正在通过新技术、服务帮助用户实现转型。