ChatGPT背后的经济账
ChatGPT能否取代Google、百度这样的传统搜索引擎?为什么中国不能很快做出ChatGPT?当前,对这些问题的探讨大多囿于大型语言模型(LLM)的技术可行性,忽略或者非常粗糙地估计了实现这些目标背后的经济成本,从而造成对LLM的开发和应用偏离实际的误判。
本文作者从经济学切入,详细推导了类ChatGPT模型搜索的成本、训练GPT-3以及绘制LLM成本轨迹的通用框架,为探讨LLM成本结构和其未来发展提供了可贵的参考视角。
来源:OneFlow
作者:Sunyan
翻译:杨婷、徐佳渝、贾川
重点概览:
LLM驱动的搜索已经在经济上可行:粗略估计,在现有搜索成本结构的基础上,高性能LLM驱动搜索的成本约占当下预估广告收入/查询的15%。
但经济可行并不意味着经济合理:LLM驱动搜索的单位经济性是有利可图的,但对于拥有超1000亿美元搜索收入的现有搜索引擎来说,添加此功能可能意味着超100亿美元的额外成本。
其他新兴的LLM驱动业务利润很高:比如Jasper.ai使用LLM生成文案,很可能有SaaS服务那样的毛利率(超75%)。
对于大公司而言,训练LLM(即使是从头开始)的成本并不高:如今,在公有云中训练GPT-3仅需花费约140万美元,即使是像PaLM这样最先进的模型也只需花费约1120万美元。
LLM的成本可能会显著下降:自GPT-3发布的两年半时间里,与GPT-3性能相当的模型的训练和推理成本下降了约80%。
数据是LLM性能的新瓶颈:与增加高质量训练数据集的大小相比,增加模型参数的数量能获得的边际收益越来越小。
1 动机
一位声称是谷歌员工的人在HackerNews上表示,要想实施由LLM驱动的搜索,需要先将其成本降低10倍。
与此同时,微软预计将在3月份推出LLM版本的Bing[3],而搜索初创公司如You.com已经将该技术嵌入到了他们的产品之中[4]。
最近,《纽约时报》报道,谷歌将在今年推出带有聊天机器人功能的搜索引擎[5]。
2 重温LLM工作原理
3 LLM驱动搜索的成本
ChatGPT Equivalent:一个在庞大训练数据集上训练的LLM,它会将训练期间的知识存储到模型参数中。在推理过程中(使用模型生成输出),LLM无法访问外部知识[6]。
这种方法有如下两大缺点: 容易“幻想”事实。 模型知识滞后,仅包含最后训练日期之前的可用信息。 2-Stage Search Summarizer:一种架构上类似的LLM,可以在推理时访问Google或Bing等传统搜索引擎。在这种方法的第一阶段,我们通过搜索引擎运行查询以检索前K个结果。在第二阶段,通过LLM运行每个结果以生成K个响应,该模型再将得分最高的响应返回给用户[7]。
相比ChatGPT Equivalent,这种方法的优点是: 能够从检索到的搜索结果中引用其来源。 能获取最新信息。
然而,对于相同参数数量的LLM,这种方法需要更高的计算成本。使用这种方法的成本也增加了搜索引擎的现有成本,因为我们在现有搜索引擎的结果上增加了LLM。
一阶近似:基础模型API
在ChatGPT equivalent的实现中,我们假设该服务平均针对50字的prompt生成400字的响应。为了产生更高质量的结果,我们还假设模型对每个查询采样5个响应,从中选择最佳响应。因此:
提示明显更长,因为它同时包含查询和搜索结果中的相关部分 为每K个搜索结果生成一个单独的LLM响应 假设K = 10并且搜索结果中的每个相关部分平均为1000个单词:
通过以下优化,预估成本大约会降至原来的1/4:1、量化(使用较低精度的数据类型) 2、知识蒸馏(通过学习较大的模型去训练一个较小的模型) 3、训练更小的“计算优化”模型,该模型具有相同的性能(稍后将对此展开更详细的讨论)
假设云计算的毛利率约为50%,与依赖云服务提供商相比,运行自建(内部)基础设施(infrastructure in-house)会使成本降低至当前的1/2。
综合以上改进,降低至原有成本的1/8之后,在搜索中融入高性能LLM的成本大约占据当前查询收入的15%(现有的基础设施成本除外)。(注:成本最低可降至 0.066 美元/次 * 1/4 * 1/2, 约定于0.008美元,因此大约占每次查询收入 0.048 美元的 15%)
深度解析:云计算成本
4 训练成本如何?
每个token的训练成本通常约为6N(而推理成本约为2N),其中N是LLM的参数数量[20]
假设在训练过程中,模型的FLOPS利用率为46.2% (而在之前的推理过程中,模型的FLOPS利用率约为21.3%),与在TPU v4芯片上进行训练的PaLM模型(拥有5400亿参数)一致[21]。
1750亿参数模型的GPT-3是在3000亿token上进行训练的。谷歌使用了GCP TPU v4芯片来训练PaLM模型,若我们现在也像谷歌那样做,那么如今的训练成本仅为140万美元左右。
5 绘制成本轨迹的通用框架
自2020年GPT-3发布以来,使用与GPT-3一样强大的模型进行训练和推理的成本大大降低,低于先前的五分之一。
参数数量效率:巨型语言模型参数每年增长10倍的神话
虽然Chinchilla的参数(以及推理计算需求)比GPT-3少60%,但是其性能远远优于拥有1750亿参数的GPT-3模型。
展望未来,我们不会继续扩大模型参数数量,而是将增量计算资源(incremental computational resources)转移到质量相当的更大数据集上进行训练,以获得极佳的性能。
Cost/FLOP效率
仅从V100(用于训练 GPT-3)到即将推出的H100的改进来看,我们预计内部训练成本将降低58%(即训练成本由74.4万美元降低到31.2万美元)。
硬件利用率提升
谷歌5400亿参数的PaLM模型在TPU v4芯片上实现了46.2%的模型FLOPS利用率,是GPT-3训练利用率的2.2倍[34]
6
大型语言模型即将迎来全盛时期
Alphabet 2021 10K Comparing Google and ChatGPT Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google Introducing YouChat - The AI Search Assistant that Lives in Your Search Engine Google Calls In Help From Larry Page and Sergey Brin for A.I. Fight ChatGPT: Optimizing Langauge Models for Dialogue(实际上,ChatGPT还在基础1750亿参数语言模型之上使用了RLHF(Reinforcement Learning from Human Feedback,即从反馈中获得强化学习)机制,但为了简单起见,我们不考虑强化学习成本。) Teaching language models to support answers with verified quotes ChatGPT: Optimizing Langauge Models for Dialogue OpenAI Pricing Building Software Systems at Google and Lessons Learned What’s New With Google Search Our World in Data: Internet Alphabet 2020 10K Scaling Laws for Neural Language Models(对于encoder-decoder模型,推理FLOPs约为N,而不是仅解码器模型的2N) AWS EC2 P4 Instances NVIDIA A100 Tensor Core GPU Architecture Mixed precision training(针对FP16/FP32描述的所有内容也适用于BF16/FP32混合精度运算,这些运算在A100和其他处理器上具有类似的吞吐量) PaLM: Scaling Langauge Modeling with Pathways Cloud TPU pricing Scaling Laws for Neural Language Models(对于encoder-decoder模型,训练FLOPS约为3N,而不是仅解码器模型的6N) PaLM: Scaling Langauge Modeling with Pathways Carbon Emissions and Large Neural Network Training GTC 2018 Keynote with NVIDIA CEO Jensen Huang NVIDIA A100 Tensor Core GPU Architecture NVIDIA Hopper Architecture In-Depth An in-depth look at Google’s first Tensor Processing Unit (TPU) Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model(假设基于使用混合精度训练的Adam优化器,每个参数占用20字节的内存) NVIDIA Hopper Architecture In-Depth State-of-the-Art Language Modeling Using Megatron on the NVIDIA A100 GPU Which GPU(s) to Get for Deep Learning: My Experience and Advice for Using GPUs in Deep Learning NVLink and NVSwitch NVIDIA ConnectX InfiniBand Adapters PaLM: Scaling Langauge Modeling with Pathways PaLM: Scaling Langauge Modeling with Pathways Cerebras Architecture Deep Dive: First Look Inside the HW/SW Co-Design for Deep Learning Graphcore IPU Hardware Overview SambaNova SN10 RDU at Hot Chips 33 A New Chat Bot is a ‘Code Red’ for Google’s Search Business Microsoft and OpenAI Working on ChatGPT-Powered Bing in Challenge to Google Jasper.ai Pricing
最近更新
-
恒瑞医药是如何失掉“人心”的?
股票 · 2022-12-30 13:34
-
三六零系最后的盛宴
股票 · 2022-11-24 13:59
-
黄光裕重掌下的国美:大厦将倾!员工工资缓发!夫妇多次减持套现
股票 · 2022-11-07 11:39
-
千禾难以“渔利”海天
股票 · 2022-10-17 19:24
- 事关退市沪深交易所重磅发布!
- 伊利营收、净利再创新高,创新、数智化驱动未来
- 赋能零碳出行孚能科技签约东南亚换电客户
- 面板行业进入新周期,巨头们有了新野望
- A股缩量整固,北向卖出86亿,机构小幅减空
- “独角兽”曹操出行赴港IPO,收入超百亿迎来盈利曙光
- 【接着红】西建造!五公司“筑”力全国跨度最大、体量最大白色清水混凝土顺利合龙
- 累计分红超508亿,乳业巨头伊利,迈向高质量发展
- 伊利2023年报:多项第一强势领跑,尽显“龙头”实力
- IPO参考:交个朋友直播间回应崔永元质疑海底捞海外公司赴美上市
专栏推荐
-
研选
浓缩机构研究精华,提前捕捉市场风口
2021人已购
¥258.00/月
-
尾盘擒牛之如何选股?
学完这些方法,告别选股难!
117人已购
¥288.00/月
-
财报拆解
知识点解读+实战案例,帮你5小时学会看财报
73人已购
¥19.90/月
-
每周一股
每周日定期更新【每周一股】,为广大的投资者精选下周短线个股!
339人已购
¥588.00/月
推荐阅读
- AI芯片、晶圆代工双战线反击,英特尔能否王者归来?
- 伊利2023年报:多项第一强势领跑,尽显“龙头”实力
- 巨象金业:日元贬值黄金大跌,本周重磅数据将引黄金再上冲?
- “五一”迎“雨神”景区概念全线下挫,PMI持续复苏锦江酒店逆势收涨
- 广州轻康联合主办中国慢性病防治大会在北京人大会议中心获批召开
- 三天暴涨一倍,商汤翻身还是泡沫?
- 2024第九届中国健康保险发展论坛于4月25日圆满落幕!
- 长沙银行2023:深耕县域、扎实零售,双引擎激活增长“向新力”
- 抖音周星驰合作拍短剧,已准备就绪
- 失速的逸仙电商:业绩式微,护肤业务靠收购,高榕资本大举减持
- 亿元酒店狂卖21家,无人接盘?
- 飞机上也能看巨幕3D电影,Rokid联合长龙航空如何重新定义出行娱乐?