云计算,曾被无数科技大厂视为“市值压舱石”,如今似乎遭遇了“滑铁卢”。

老生常谈的市场增速是最直观的体现。IDC近期发布的《中国公有云服务市场(2023上半年)跟踪报告》显示,中国公有云市场的IaaS和PaaS增长仅为15.9%,是近三年的最低水平。

原因可以归结于两点。一是企业IT预算的增长未达预期。后疫情时代下的企业,在预算制定和支出上变得更加谨慎,他们开始寻求更高效、成本更低的方案。这在很大程度上抑制了公有云市场的增长。

其次,互联网云服务商为了保持利润,做出了战略上的调整。竞争加剧的市场环境中,这些厂商从追求收入转变为追求盈利,放弃了部分非盈利项目。这也导致了市场整体收入增长的放缓。

还有更为严重的挑战,可能正直接威胁到云计算技术基石的地位。

就在近段时间,海外,马斯克的X平台选择离开云端以节约成本;国内,多家互联网平台因云产品引发了网站宕机。偶发的几起事件,汇聚在一起,对云计算的效率和可靠性提出质疑。

在成为科技大厂多年追求的热门领域之后,云计算如今面临着其发展历程中最艰难的时刻。

X“下云”开先河

2023年10月27日,X的工程团队发布了一篇详尽的长帖,对过去一年中平台架构所做的调整进行了总结。

最引人瞩目的是X平台尝试“下云”所带来的显著成本变化。通过优化对云服务提供商的使用,X平台实现了月度云成本的60%降低。

具体来说,团队将所有媒体/数据块工件从云中迁移出来,降低了60%的云数据存储大小,并将云数据处理成本降低了75%。

这一策略的调整明显事出有因。据外媒报道,X平台之前每年在AWS上的开销高达1亿美元。马斯克收购后指示平台削减云服务和额外的服务器空间,以期望每年节约高达10亿美元的基础设施成本。

尽管实际成效尚未完全明朗,但根据最新公布的数据,“节约60%的月度云成本”意味着X平台每年可能节省高达6000万美元。

这一成绩引起了“下云”倡导者的极大关注,其中包括Ruby on Rails框架创始人David Heinemeier Hansson(简称DHH)。今年6月,DHH 宣布其创始公司 37Signals 时隔6个月完成“下云”,将所有应用迁移至本地硬件。即使预留50万美元用于意外开支,5年内也可节约700万美元的云成本。

他在《X celebrates 60% savings from cloud exit》一文中指出,对于首席财务官和投资者而言,这种成本节约是无法忽视的。如果像X平台这样的大型企业能够在员工数量大幅减少的同时,通过“下云”措施获得巨额利润,那么对于其他大型企业而言,“下云”无疑是一个值得探索的领域。

不过,该观点也有一些质疑的声音。例如,尽管X平台在云计算上的支出减少了60%,但他们在本地化操作后的具体成本并未公开,这让人们对整体成本效益产生了疑问。

业内专家也指出,每年都有新闻报道客户因为弹性伸缩云产品价格昂贵而选择“下云”,节省了大量预算。但这并不意味着弹性伸缩云产品不适合所有客户。这些新闻背后的真正问题,可能是产品经理和销售团队的失职,他们未能合理设置价格策略,导致客户流失。

传统意义上,企业上云被认为是一种节省成本的策略。云计算的销售人员经常向企业领导强调,通过迁移到云端的数字化管理转型,可以在多个方面实现成本节约。其中包括数据管理、机房建设、专业运维人员的费用,以及其他与系统维护相关的综合成本。

而云服务的立锥之地,一个关键优势在于灵活性和可扩展性。这意味着企业可以实时调整资源,而不需要承担传统IT基础设施所带来的高额成本和时间投入。

因此很长一段时间内,上云被视为企业降低运营成本、提高效率的理想选择。

然而,随着X平台开了“下云”先河,人们开始重新审视云计算的成本效益,考虑云计算与本地化运营之间的平衡。

大厂宕机扯下遮羞布

近期,国内大型互联网平台的网站服务纷纷遭遇崩溃,演绎了一出黑色幽默戏码。

红星资本局的报告显示,近几年每当应用程序崩溃,用户便会迅速汇聚至各大社交平台展开讨论。当这些讨论达到一定程度时,媒体便会关注这些事件,并可能使其登上各大平台的热搜榜。以此为依据,2022年发生的崩溃事故大约有9起,而今年已有14起。

这一增长趋势反映出技术问题的普遍性。

一位资深技术专家在分析宕机现象时,提出了IT系统的三层结构模型:最顶层为应用软件,中间层是云平台,最底层则是IT硬件。

他指出,当底层的IT硬件出现问题时,通常可以通过增加冗余系统或快速更换硬件来解决。但问题若发生在云平台层面,其影响会显著扩散,不仅影响单个应用,而且可能涉及多个应用。另一方面,如果应用可以打开但无法正常使用,则通常指向应用软件层面的问题。

据此可以判断,近期的App宕机潮与云平台和应用软件层面的问题密切相关。这一系列事件再次挑战了云服务长期以来的可靠性口碑。

阿里系产品近期的集体故障显然与其云服务的使用密切相关。其影响之广,不仅是技术层面的问题,也与阿里采用的云服务特性有很大关系。

Flexera的《2022年云状态报告》指出,89%的受访企业在IT架构上采用了多云战略。多云策略的优势在于它可以帮助企业保持议价能力,不受单一资源的限制,并避免技术架构与单一云服务商深度绑定。

这就对国内的阿里系产品提出了挑战。因为其大多使用的云服务实际上是自家业务的一部分。未来他们需要考虑是否将一部分业务转移至其他云服务提供商,或是创建一个独立的私有云,以此来分散和降低风险。

滴滴App的事故也源自云计算,外界普遍认为是与滴滴弹性云基于K8S的升级有关。

官方的内部调查初步确定,事故起因是底层系统软件发生故障,而非遭受攻击;并承诺将深入进行技术风险隐患排查和升级工作,确保服务稳定,努力避免类似事故再次发生。

另外,密集的突发事件还被解读为是各大互联网公司“降本增效”的裁员行为,影响到了技术、运维团队的正常运作,导致技术服务和系统稳定性受损。

尽管只是毫无根据地猜想,却也映射出公众对云服务故障的深切关注。未来用户对于云服务故障事件的容忍度,可能会逐渐降低。

总之,云服务的一个关键风险——可靠性问题,正在暴露出来,尤其是在缺乏充分备份和故障转移计划的情况下。

谁来拯救云计算?

飞速发展的大趋势下,问题往往被暂时隐藏在繁荣的表象之下。现在,探索云计算如何能够重拾增长的脚步,并进一步优化客户体验?这一切的关键,恰恰在于生成式人工智能的广泛应用。

目前,大模型正在改变云计算的游戏规则,并逐渐成为行业共识。

一方面,庞大的语言模型在训练和推理阶段需要巨大的计算力。这一需求促使云服务商提供更加强大且高效的计算资源以支持模型训练。

另一方面,大模型的流行也带动了对云计算资源的额外需求,推动云计算的技术架构和产品布局发生变化。

IDC的研究主任Ewa Zborowska对此进行了深入阐述。具体来说,在生成式AI的快速发展和可扩展性方面,云计算扮演了催化剂的角色。

当下,即便没有巨额的前期投资,高性能的计算资源如GPU和TPU也变得触手可及。这让组织可以集中精力在最重要的事情上:开发创新的生成式AI解决方案,而不必担心任何基础设施问题。

此外,云平台为生成式AI提供的一个主要优势是管理对预训练模型和API的访问。预训练模型集成了生成式AI专家的知识和技能,节约了大量的时间和计算资源。通过利用这些模型,开发者可以推进他们的项目,专注于微调和定制,而不是花费无数小时在模型训练上。

企业当然也可以选择自己构建和托管基础模型,但这是一个非常昂贵、复杂且耗时的过程。而云服务商提供的API简化了模型架构的复杂性,使得将生成式AI能力整合到现有和新建应用程序中变得更加简单。

可以说,生成式AI的兴起,加固了云计算不可或缺的基石地位。根据Gartner的预测,到2024年,主要需求将来自部署生成式AI能力的组织,他们的云基础设施消耗预计将比2023年增长近27%。

尽管形势一片大好,云服务商们也不能沉浸于现状的自满之中。在这条充满不确定性的商业征途上,真正的驱动力是实际的经济效益。供应商们必须认识到,唯有持续创新和适应市场的不断变化,才能保持领先。

比如,云服务商需要投资于硬件和芯片的研发,增强针对生成式AI任务的硬件和芯片能力,甚至开发新型芯片来加速生成式AI的计算。只有不断站稳硬件层面的前沿,才可以提供更高的性能和成本效益。

另外,云服务商还需要开发行业特定或用例特定的AI框架,通过针对不同领域的独特需求,实现差异化。只有通过这些专门的AI框架,才能使企业有效利用生成式AI,并推动特定行业的创新。

以上早已是今年上半年北美和中国云计算巨头正在积极推进的策略。而眼下,云计算行业才正式迈入了决定其命运的下半场征程。

参考资料:

北京商报-今年App崩溃至少已有14起

IDC-Why Generative AI and Cloud Platforms Are a PerfectMatch