去创作

用微信扫描二维码

分享至好友和朋友圈

突发,华为首个开源大模型来了

华为态度两极反转,从“绝不开源”到主动开放

短短两年,华为对盘古大模型的态度,来了个180度大转弯。

还记得2023年,华为云开发者大会上,华为常务董事、华为云CEO张平安正式发布盘古3.0大模型时,明确表示盘古大模型不会开源。

做出这一决定,在当时对华为来说并不是任性而为。

彼时,国际科技竞争激烈,“卡脖子”风险高悬头顶。

而华为盘古大模型走的是全栈自研路线,从底层芯片到模型算法,每一步都是华为自己研发出来的,没有采用任何开源技术。

并且,据张平安介绍,盘古大模型定位是行业赋能,深度应用在矿山、电力等众多领域,涉及大量客户机密数据,开源可能会带来数据泄露的安全隐患。

直到今天,2025年6月30日,华为画风突变,正式宣布开源盘古70亿参数的稠密模型以及盘古ProMoE720亿参数的混合专家模型,还一并开源了基于昇腾的模型推理技术。

图源:微信

今时不同往日,华为的这一决策背后,是外部环境变化、技术成熟度的提升以及对生态建设的深远考量。

此次开源的盘古70亿参数的稠密模型,具有参数量适中、性能均衡、部署门槛较低的特点。它在智能客服、知识库等多种场景中均可应用,能够为不同行业的企业提供高效、灵活的解决方案。

模型的开源,意味着更多的开发者和企业可以基于它进行二次开发和创新,从而推动人工智能在更多领域的应用落地。

而盘古ProMoE720亿参数的混合专家模型,更是“王炸”级别的存在。

它独创MoGE(分组混合专家)架构,通过动态激活专家网络,仅需160亿激活参数,就能媲美千亿级模型的性能。

比如在SuperCLUE2025年5月的开源模型排行榜上,盘古ProMoE72B名列前茅,与阿里的Qwen3-32B(Thinking)一齐成为千亿以下超强性能的国产开源大模型。

图源:SuperCLUE官网

再说说基于昇腾平台的模型推理技术。

据华为方面介绍:“我们以前很少对外发声,盘古也没有开源,所以大家对昇腾算力具体的情况不是特别了解,对模型的情况也不了解,外界就充满了猜疑。甚至认为昇腾训练不出来先进的大模型。”

“昇腾算力能够训练出世界一流的大模型,训练高效率,推理高性能,系统高可用。第三方模型迁移到昇腾上可以做到:Day0迁移,一键部署。”

值得注意的是,华为此前曾强调盘古大模型与ChatGPT不在同一轨道。

ChatGPT走的是Transformer架构的“暴力美学”路线,更偏向消费级对话场景;而盘古采用Encoder-Decoder架构,在多模态融合和物理推理上优势明显,聚焦工业、气象等垂直领域。

就拿气象预测来说,盘古的气象模型预测速度比传统方法快1万倍,还被欧洲中期天气预报中心采用,这是两者的本质区别。

华为开源背后的战术考量

其实,今年以来,中国AI行业掀起了一股开源热潮,多家企业都改变了闭源的思路,其中就包括大家耳熟能详的OpenAI,还有百度。

要说是什么让这些大佬纷纷转变态度,DeepSeek的横空出世居功至伟。

秉持着开源理念的DeepSeek用更小的训练成本却带来了性能媲美国内外顶尖模型的DeepSeek-R1,并将推理模型向全球数十亿用户普及,给了以往坚持“闭源才是王道”的企业足够的心灵冲击。

图源:抖yin

在这样的背景下,华为此次宣布开源盘古大模型,可以说是顺应潮流,但其背后也有自己的考量。

华为官方表示,开源盘古大模型是践行昇腾生态战略的关键举措,旨在推动大模型技术的研究与创新发展,加速人工智能在千行百业的应用与价值创造。

从华为的角度来看,这一决策确实能为其带来不少潜在好处。

一方面,盘古模型深度依赖昇腾芯片,开源后企业若想更好的落地应用,就需要采购昇腾服务器或云服务,这能大大加速昇腾芯片的规模化渗透,抢占国产算力市场;

图源:开源开发者平台GitGo

另一方面,不同规模的开源模型能吸引不同需求的开发者,例如盘古70亿模型适合高校科研,而ProMoE模型则更吸引企业开发者。

通过开源吸引更多ISV(独立软件开发商)加入昇腾生态,形成“模型-工具-应用”的正向循环;

再者,开源能够加速人工智能技术的普及和应用。随着盘古大模型的开源,企业和开发者又多了一种以低的成本获取强大AI技术实力的方式,从而推动人工智能在更多行业的应用和落地。

此外,开源还能够提升华为在国际AI领域的影响力和话语权。一举多得,何乐而不为?

中国AI百花齐放,百家争鸣

如今的中国AI领域,可谓是百花齐放、百家争鸣,几家领先的人工智能企业都在各自赛道上发力,不断推陈出新。

阿里通义千问持续升级迭代。先是在5月9日发布通义千问2.5版本,相比之前,理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

前几天又发布了多模态统一理解与生成模型QwenVLo,支持文本、图像、视频多模态理解与生成,在电商领域,还能自动生成商品详情页和营销文案,效率提升300%,妥妥的“全能王”。

图源:微博

字节跳动豆包也是动作频频。6月11日,火山引擎发布豆包大模型1.6、豆包视频生成模型Seedance1.0pro、豆包语音播客模型,并升级Agent开发平台等AI云原生服务。

而同样在今天,豆包公众号宣布“深入研究”功能在App、网页端、电脑版开启测试,不断拓展应用场景,力争成为场景化的“爆款制造机”。

图源:豆包

百度文心一言同样在今天放出大招,正式开源文心大模型4.5系列10款模型,涵盖47B、3B激活参数的混合专家(MoE)模型,与0.3B参数的稠密模型等,并实现了预训练权重和推理代码的完全开源。

文心大模型4.5系列在多文本和多模态基准测试中达到了SOTA水平(当前最高水平),尤其在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现出色。

图源:微博

当然,华为的盘古大模型的最新成果也并没有停留在上述提到的盘古ProMoE72B。

6月20日,盘古大模型迎来了5.5版本的发布,该版本的自然语言处理(NLP)能力比肩国际一流模型,并在多模态世界模型方面做到全国首创。

盘古大模型5.5包含了五大基础模型,分别面向NLP、多模态、预测、科学计算、CV领域,进一步推动了大模型成为行业数智化转型的核心动力。

盘古UltraMoE、盘古ProMoE、盘古Embedding等一系列模型的推出,不仅展示了华为在AI领域的深厚技术积累,也为行业提供了更多高效、实用的解决方案。

更为关键的是,盘古UltraMoE是718B(7180亿)参数的MoE深度思考模型。也就是说,华为甚至还小藏了一手,估计后续会有更重磅的开源。

所以DeepSeek呢?上面提到这么多优秀企业的发展进度,DeepSeek怎么样了?

随着2025年已经过去了一半,AI行业的蓬勃发展让人们对DeepSeekR2的期待愈发强烈。DeepSeek的上一次更新,还停留在上个月。

5月底,DeepSeekR1迎来重磅更新,这次更新增强了模型的思维深度和推理能力,提升了响应速度和对话稳定性,减少了“遗忘设定”或“跑题”的情况。详情可以关注我们的《》这篇文章。

而据多方消息透露,DeepSeek-R2的训练成本有望降至0.07美元/百万token,推理速度还能比R1快上2倍,并支持代码、数学、法律等专业领域深度推理。

一旦发布,必将再次震撼整个行业。

作者|刘峰

更多精彩内容,关注云掌财经公众号(ID:yzcjapp)

以上内容仅供学习交流,不作为投资依据,据此操作风险自担。股市有风险,入市需谨慎! 点击查看风险提示及免责声明
热股榜
代码/名称 现价 涨跌幅
加载中...
加载中 ...
加载中...

二维码已过期

点击刷新

扫码成功

请在手机上确认登录

云掌财经

使用云掌财经APP扫码登录

在“我的”界面右上角点击扫一扫登录

  • 验证码登录
  • 密码登录

注册/登录 即代表同意《云掌财经网站服务使用协议》

找回密码

密码修改成功!请登录(3s)

用户反馈

0/200

云掌财经APP下载

此为会员内容,加入后方可查看,请下载云掌财经APP进行加入

此为会员内容,请下载云掌财经APP加入圈子

云掌财经
扫码下载

更多功能与福利尽在APP端:

  • 精选会员内容实时推送
  • 视频直播在线答疑解惑
  • 达人一对一互动交流
关闭
/