去创作

用微信扫描二维码

分享至好友和朋友圈

大摩最新研判:中美AIGPU差距,没想象那么大

前两天,大摩发了一份挺有意思的报告,标题也很直接:《中国AI GPU——缩小与美国的差距》。

报告里有一个核心判断,其实挺颠覆很多人的直觉:中国AI芯片和美国的差距,并没有市场想象得那么大。

更关键的是,大摩还提出了一个时间判断——2026年,可能会成为中国AI GPU产业的一个重要拐点。

为什么这么说?

原因不只是技术在进步,更重要的是,国内新一轮AI GPU公司正在走向资本市场。比如百度旗下的昆仑芯、阿里体系里的平头哥,都将在未来一两年进入IPO阶段。

在这份报告里,大摩系统拆解了中国AI GPU产业,并试图回答三个核心问题:

第一,中国是否能够大规模供应具有竞争力的AI GPU?

第二,中国AI GPU市场到底有多大?

第三,投资人应该如何评估中国AI GPU公司的商业价值?

接下来,我们就沿着这三个问题,一起看看大摩是怎么说的。

/ 01 / 差距没有想象那么大

很多投资人在讨论中国AI GPU时,往往只盯着晶圆工艺节点,然后很快得出一个结论:中国AI芯片在制程上落后一代甚至几代,因此竞争力有限。

但大摩提出了一个相对不同的判断:中国AI芯片与美国的差距,其实没有市场想象得那么大

原因很简单。中国的电力成本相对更低,因此能效在整体算力经济模型中的权重,并不像欧美那样高。

如果从“每美元每瓦性能”(performance per watt per dollar)的框架来看,这种差距会明显缩小

要判断中国AI GPU是否能够真正实现规模化供应,关键还是要回到半导体产业链的供给侧——尤其是晶圆厂产能。

在这一层面,产能扩张不仅取决于晶圆厂的名义产能,还取决于一系列关键上游投入的成熟度和可获得性。而现实情况是,中国AI GPU产业链仍然受到多重供应瓶颈的制约。

这些瓶颈最明显地体现在晶圆前端设备(WFE)上。

在部分设备领域,中国已经取得一定进展。例如外延设备和刻蚀设备等关键工具,已经可以由本土厂商提供,包括北方华创、中微公司以及SiCarrier等。

但在光刻设备和检测设备方面,制约仍然非常明显。

目前,中国晶圆厂仍大量依赖ASML的DUV光刻系统。同时,行业调研显示,在SMIC的先进制程产线(尤其是南方厂区),KLA的检测与计量设备供应受限,这迫使晶圆厂减少检测步骤,将资源集中在最关键的层级。

这种做法可以提高设备利用率、维持产能,但往往以牺牲良率为代价,也加剧了先进制程制造的结构性挑战。

除了设备,EDA(电子设计自动化)软件同样是关键瓶颈。

目前,中国最大的EDA公司华大九天在全球市场的份额仅约1–2%。更重要的是,其尚未提供完整的数字芯片设计工具链,很难支持先进节点GPU的复杂设计。

相比之下,Cadence、Synopsys和Siemens三家公司在全球EDA市场的份额合计超过80%。

与此同时,美国政府已经对先进EDA工具实施严格出口管制,尤其是用于GAA(全环绕栅极)晶体管架构的设计工具。这些限制的目标很明确:

阻止中国推进3nm和2nm节点,而这些节点正是未来高性能计算和AI芯片的关键基础。

在设备与软件双重限制下,中国GPU设计公司在短期内很难向3nm或2nm制程迁移。

在这种背景下,中国AI芯片产业正在出现一个明显变化:

瓶颈正在从设备获取,转移到晶圆代工产能本身

目前,中国先进逻辑制造能力高度集中在SMIC,这使得SMIC成为国内AI GPU产能扩张的关键节点。

根据行业调研,多家国内AI芯片厂商已经开始将部分生产从海外迁回中国大陆,利用SMIC的N+1(约12nm)和N+2(约7nm)工艺节点来提升本土产能。

目前,SMIC已经通过DUV多重图案化技术将工艺推进至N+2,并尝试向N+3(约5nm)节点演进。

大摩预计,SMIC的N+2产能将在2025年达到约2.2万片/月,2026年约4万片/月,2027年约5.1万片/月

不过,这些产能并不会全部用于AI GPU,因为智能手机、汽车SoC等行业同样需要先进节点。

在晶圆工艺难以快速追赶的情况下,中国AI芯片厂商正在逐渐改变竞争路径——从单芯片性能转向系统级架构设计。

目前主流的应对策略大致有三类。

第一,是多芯片集成

如果单个芯片性能不足,就通过先进封装技术,将多个计算芯片整合在一起,形成更大的计算单元。这种方式不依赖更先进的制程节点,也能够在一定程度上提升整体算力。

第二,是扩大系统规模

国内厂商正在借鉴NVIDIA NVL72的架构理念,通过更大的机架和集群来提升整体性能。例如华为的CloudMatrix 384、阿里巴巴的PPU架构,以及字节跳动的256加速器机架设计,本质上都是通过规模化架构来弥补单芯片性能差距。

第三,是扩大制造规模

近年来,中国晶圆代工厂持续加大资本投入。SMIC的资本开支在2023年约75亿美元,2024年约73亿美元,2025年约81亿美元。同时,中国也在加速采购ASML的DUV光刻机,以支撑未来先进节点产能扩张。

换句话说,在单芯片性能难以迅速追赶的情况下,中国厂商正在通过封装、架构和规模三条路径来弥补差距。

虽然单芯片性能仍然落后,但在大规模集群和推理场景中,这种系统级优化,已经能够在一定程度上抵消硬件层面的劣势。

/ 02 / 国产AI GPU的需求有多大?

在讨论中国AI GPU产业时,一个经常被忽视的问题是:需求到底有多大?

在大摩看来,需求侧核心取决于两个驱动力:技术自主化与商业回报。

先看技术自主化。随着外部限制不断加强,AI芯片已经被中国视为关乎国家安全与经济安全的关键资源。这种压力直接推动了中国建设本土AI芯片体系的决心。

在这一过程中,产业链内部形成了一种典型的共生关系。

一方面,本土AI芯片公司需要先进制程节点支持。GPU要具备竞争力,通常需要领先两到三代的制程工艺。另一方面,本土晶圆厂也需要稳定的大客户与订单规模,才能证明先进制程投资的合理性。

在这种结构下,晶圆厂产能成为整个产业链最关键的瓶颈

不过,大摩认为,自主可控更多是早期投资的驱动力。长期来看,AI芯片产业能否持续发展,最终仍要看商业回报。

随着算力投资规模不断扩大,资本开支与设备利用率迟早会成为约束条件。因此,中国AI产业的路径正在发生变化:

从“政策驱动”,逐渐转向成本效率与商业回报驱动。

目前,中国主要科技公司——腾讯、阿里巴巴、字节跳动、百度、美团——都在明显提高AI资本开支。

大摩预计,到2026年,中国科技公司的AI相关资本开支将达到5970亿元人民币,同比增长约38%。

这些投入主要集中在广告推荐、消费应用(2C)和企业服务(2B)等场景,而这些场景已经逐渐证明具备清晰的商业化路径。

从长期经济模型来看,在扣除折旧、电力和服务器租赁成本之后,中国AI算力基础设施预计将在2028年前后实现盈亏平衡,到2030年整体利润率有望达到约50%。

从需求结构看,中国AI GPU的采购高度集中在少数大型买家。

大摩将其分为三类。

第一类是云服务商(CSP),包括字节跳动、阿里巴巴和腾讯。这些公司采购GPU既用于训练自有模型,也用于向外部客户提供AI云服务。

第二类是主权买家,包括电信运营商、地方政府和国有企业。这类需求主要来自数据主权、数字基础设施和公共服务数字化。

第三类是创新企业,例如DeepSeek、MiniMax等AI创业公司,以及小鹏、小米等汽车厂商。不过目前来看,这类企业的采购规模仍明显小于前两类。

综合这些需求,大摩预计中国AI GPU市场规模将持续快速增长。

到2030年,中国AI GPU市场规模(TAM)预计将达到670亿美元,2024年至2030年的复合增长率约为23%。

这一测算主要基于中国云计算行业的资本开支结构。

大摩预计,到2030年,中国云计算行业整体资本开支将达到1300亿美元,其中约51%将用于AI GPU相关设备。

这一预测基于几个关键假设:

第一,中国云厂商海外数据中心投资比例将逐渐下降。2025年,中国云厂商约40%的算力投资用于海外数据中心,但这一比例预计将在2026年以后下降至约30%。

第二,服务器仍将占云计算资本开支的约90%。

第三,AI加速服务器占比将从2025年的75%提升至2030年的85%。

第四,在AI服务器中,加速器芯片的价值占比约为80%。

不过,随着中国AI GPU市场规模不断扩大,一个更关键的问题也随之出现:这些需求最终会流向谁?

大摩的判断是,在持续的地缘政治压力下,中国AI算力需求正在快速本土化。

这意味着,本土芯片将不再只是出口管制下的替代方案,而会逐渐成为中国AI算力体系的结构性组成部分。

尽管中国在制程技术上仍落后美国数代,但系统级性能差距正在逐渐缩小。

未来四年,这一差距有望从目前的1.5—2倍,缩小至约1倍左右

推动这一变化的,并不是制程节点本身,而是三个因素。

先进封装技术(例如2.5D和3D封装)、大规模系统架构(例如光互连网络)、软硬件协同优化。

与此同时,中国也在逐步降低对TSMC代工的依赖,更多转向SMIC的N+2和N+3工艺。

当然,一些关键环节仍然依赖海外供应,例如韩国的HBM存储、欧洲的DUV光刻设备,以及美国KLA的检测设备。

不过,大摩的行业调研显示,在部分环节,中国已经开始逐渐取得突破。

综合供需两侧变化,大摩认为中国AI芯片产业正在形成一条清晰的自给路径。

到2030年,中国AI芯片自给率预计将从2024年的33%提升至约76%。与此同时,本土AI芯片市场规模也将从2024年的60亿美元增长至2030年的510亿美元,复合增长率约为42%。

这一增长主要来自三个因素:先进节点产能扩张、制造良率持续提升和以及政策主导的资源配置。

例如,大摩预计中国先进节点晶圆厂的生产良率将从2025年的约20%,提升至2030年的约50%。

同时,由于先进节点产能仍然稀缺,政府在一定程度上会参与产能分配。

在大摩的判断中,华为预计将获得最大的先进节点产能份额,其次是寒武纪和海光,而第二梯队AI芯片公司的产能份额可能各自低于10%

/ 03 / 谁能胜出?

市场的主流看法是,中国AI GPU的落地,主要还是靠政策推动下的国产替代。

在这种叙事框架里,很多厂商的估值逻辑其实很简单:

第一,未来能从NVIDIA手里拿走多少市场份额;

第二,中国市场会不会长期维持一个分散竞争的格局。

但大摩的判断并不完全一样。

他们认为,中国AI GPU厂商的长期价值,最终还是要回到两个问题:

第一,产品有没有真正的商业竞争力;

第二,这种竞争力能不能转化为稳定收入和品牌溢价。

政府支持、CSP定制采购当然重要,但如果拉长周期看,真正决定市场地位的,还是产品本身。

基于这个逻辑,大摩提出了一套“定性+定量”的评估框架。

定性层面看四件事:能不能拿到先进制程产能、和核心CSP客户关系是否稳固、政策支持力度,以及技术路线是否符合未来需求。

定量层面,则重点看四个指标:TPS(每秒token输出能力)、每瓦性能、每美元每瓦性能,以及最关键的每token成本。

从行业趋势看,中国AI GPU市场大概率会逐步走向整合。

原因其实很简单。一方面,随着技术成熟,产品差异化会逐渐缩小;另一方面,规模效应会越来越重要。

到了后期,竞争不再只是拼参数,而是拼出货量、客户黏性、供应链能力以及成本控制。

换句话说,GPU最终会变成一个典型的规模行业。这也意味着一个结果:

利润率压力会越来越大。

因此,大摩认为接下来最值得关注的三个指标是:

第一,新一代芯片规格是否持续提升;

第二,向头部CSP的出货量能否快速增长;

第三,ASP和毛利率的变化趋势。

如果这些指标走弱,当前市场给出的高估值很可能会面临修正。

当然,这套判断也有可能失效。

例如,如果国产GPU厂商始终拿不到足够的晶圆厂产能,那么产品再好也很难兑现收入。

或者CSP对国产芯片的采用意愿低于预期,采购仍然倾向海外供应商。

更深层的风险,则是AI计算范式本身发生变化。比如模型架构或工作负载发生重大变化,导致当前基于TPS的性能比较不再有效。

从这个角度看,一个真正可能成为长期赢家的中国AI GPU厂商,至少需要同时具备四个条件:

第一,推理经济性有竞争力;

第二,能够稳定拿到先进节点产能;

第三,与核心CSP客户形成深度绑定;

第四,在政策方向上处于有利位置。

缺任何一项,都很难长期维持市场份额,更难支撑高利润率。

在具体分析方法上,大摩采用的是一个“双层框架”。

第一层看定量指标,也就是推理经济学。

对于CSP来说,决定是否大规模部署的,往往不是峰值性能,而是规模化后的总拥有成本。

真正关键的指标,不是芯片跑分有多高,而是推理场景下的每token成本、TPS、每瓦性能,以及每美元算力。

第二层看定性定位。

也就是厂商是否能把实验室里的性能,真正转化为商业市场的份额。这取决于三件事:是否能拿到先进节点产能、是否进入主流CSP采购体系,以及是否契合政策方向。

从需求结构看,中国AI GPU的主战场,短期内更可能是推理,而不是训练。

原因很现实。本土厂商在生态和制程上仍然受限制,要全面参与最前沿基础模型训练仍然有难度。

相比之下,推理需求正在快速增长。

像DeepSeek、豆包、Qwen这样的模型,日均token消耗已经达到很高水平,持续拉动推理算力需求。

与此同时,大量NVIDIA A100以及部分H100、H800集群仍然主要用于训练任务。

这意味着,中国新增的推理需求,很可能越来越多由国产加速器承接。

在推理场景的性能比较中,大摩更看重TPS,也就是每秒token输出能力。

因为在真实部署中,TPS往往比理论峰值算力更接近商业价值。

它同时反映了计算吞吐量、内存带宽、互连能力以及软件栈优化水平。

从推理经济学来看,国产芯片的优势主要在成本结构。

整体来看,本土AI加速器的采购价格通常比中国市场可获得的高端NVIDIA产品低30%到60%。

如果再把功耗、电费以及运维成本算进去,国产方案的总拥有成本通常更低。

这意味着,虽然NVIDIA H200在绝对性能上仍然领先,但在“每token成本”这个更贴近商业现实的指标上,头部国产厂商已经可以做到接近H20和A100。

在部分配置下,甚至可能更优。

这一点非常关键。

因为对于CSP来说,真正决定是否部署的,不是芯片峰值性能,而是能不能用更低成本完成更多推理任务。

换句话说,国产GPU未必要在硅性能上全面领先,只要在规模化部署中具备更好的经济性,就足以建立商业价值。

从TPS表现来看,最新一代国产加速器已经开始逼近甚至在某些场景下超过NVIDIA H20。

例如华为Ascend 950系列以及寒武纪MLU690,在部分推理场景中的表现已经具备一定竞争力。

当然,这种比较也有边界。

TPS不仅受硬件参数影响,还与软件优化、框架适配以及集群配置有关。

换句话说,参数接近并不等于实际部署效果完全相同。

更重要的是,这种比较必须放在中国可采购产品的范围内理解。

如果把NVIDIA最新的GB300平台纳入比较,性能差距会再次被拉开。

也就是说,中国厂商确实在追赶,但当前追赶的主要是中国可获得市场,而不是全球技术前沿。

除了性能,能效也是重要指标。

虽然中国整体能源约束不如美国严格,但能效仍然会影响部署密度和机房成本。

从每瓦性能来看,头部国产芯片已经接近A100和H20,但与H100、H200仍存在差距。

不过,如果把采购价格纳入考虑,国产芯片的性价比优势会更加明显。

因此,在推理密集型场景中,国产GPU的吸引力正在不断增强。

市场最终奖励的,很可能不是峰值性能最高的厂商,而是那些能够持续压低每token成本、并把这种优势规模化复制的公司。

从更宏观的角度看,美国AI GPU公司的估值逻辑已经比较成熟。

像NVIDIA和AMD,估值虽然不低,但核心支撑来自规模、盈利能力以及全球生态位。

相比之下,中国AI GPU厂商的估值明显更激进。

很多公司收入规模仍然较小,盈利能力也还处于早期阶段,但市场已经给出了很高的PS倍数。

本质上,市场交易的不是当前利润,而是国产替代和未来市场集中度的预期。

因此,中国AI GPU板块更像是在定价一张长期竞争格局,而不是确定性的盈利能力。

更多精彩内容,关注云掌财经公众号(ID:yzcjapp)

以上内容仅供学习交流,不作为投资依据,据此操作风险自担。股市有风险,入市需谨慎! 点击查看风险提示及免责声明
热股榜
代码/名称 现价 涨跌幅
加载中...
加载中 ...
加载中...

二维码已过期

点击刷新

扫码成功

请在手机上确认登录

云掌财经

使用云掌财经APP扫码登录

在“我的”界面右上角点击扫一扫登录

  • 验证码登录
  • 密码登录

注册/登录 即代表同意《云掌财经网站服务使用协议》

找回密码

密码修改成功!请登录(3s)

用户反馈

0/200

云掌财经APP下载

此为会员内容,加入后方可查看,请下载云掌财经APP进行加入

此为会员内容,请下载云掌财经APP加入圈子

云掌财经
扫码下载

更多功能与福利尽在APP端:

  • 精选会员内容实时推送
  • 视频直播在线答疑解惑
  • 达人一对一互动交流
关闭
/