去创作

用微信扫描二维码

分享至好友和朋友圈

GPT-5来了,所有人免费使用,马斯克急了

GPT-5来了,马斯克表示不服

自GPT-3.5一炮而红,开启人类对“第四次工业革命”的想象后,很长一段时间,ChatGPT都是友商的唯一对标产品。

在此之后,OpenAI明显放慢了脚步,从GPT-3到GPT-4,OpenAI花了接近三年,GPT-4到GPT-5,又经历了两年半。

昨夜,OpenAI终于端上来了这盘大菜,推出了迄今最先进的大型语言模型GPT-5。

上线后,GPT-5不出意外地“杀遍天下无敌手”,迅速屠榜大模型竞技场LMArena,所有细分类目中,都稳稳拿下了第一。

图源:LMArena

与上一代相比,GPT-5最大的结构变化是采用集成模型架构,首次将大语言模型(GPT系列)与推理模型(o系列)深度融合。这意味着,系统将自主判断问题的复杂度,必要时调用更多计算资源进行“深度思考”。

奥尔特曼称,这是普通用户首次接触OpenAI的“测试时间计算”技术,即在面对数学推导或复杂推理时,模型会主动延长计算时间以提高准确性。

同时,这次还有一个让外界沸腾的重大信号,是GPT-5将免费提供给用户,这意味着,所有人都能用上这个“博士生水平的AI”。

当然,付费版Plus会员可获得更多使用量,Pro会员则可访问GPT-5Pro版本,以及免费用户在配额使用完后将被分配到GPT-5mini模型。

图源:智能涌现

对于这个“诚意之作”,OpenAICEO山姆·奥特曼给出了极高评价:拥有GPT-5这样的AI模型,在历史上任何时候都是难以想象的。

当然,“老对手”马斯克也不请自来“蹭热度”,顺便暗中拉踩,宣传一波自家产品。

马斯克表示:Grok4在ARC-AGI测试中击败了GPT-5,而Grok5将于今年年底前发布,预计表现将更加出色。

图源:X

值得一提的是,在GPT-5发布前,OpenAI就按捺不住,提前偷跑了好几次。

8月3日,OpenAICEO奥特曼先是在X上用“20HoursLeft”虚晃一枪,吊人胃口,又在接下来的几天,频频进行一些“骚操作”:

8月5日,ChatGPT上线了“防沉迷弹窗”。

8月6日,时隔六年,OpenAI终于再次宣布开源新模型,但这次还不是GPT-5,而是gpt-oss-120b和gpt-oss-20b两款模型。

在这个过程中,竞争对手们也不是吃素的,纷纷选择“跟团”。

谷歌、Anthropic在不到24小时内接连甩出了王炸。其中,Anthropic上线了Claude4.1,主打编程能力;谷歌DeepMind更是直接祭出了“创世引擎”——Genie3。

外媒更是将Genie3的发布称为“重演了ChatGPT时刻”。

图源:X

接下来,让我们来看看这个让无数人凌晨蹲守直播的所谓“地表最强大模型”GPT-5,有什么值得一看的表现。

这次发布的GPT-5拥有四个版本:

GPT-5:在不同领域中进行Coding和执行任务的标准模式;

GPT-5mini:轻量版版本,适用于明确界定的任务和场景;

GPT-5nano:强调运行速度和性价比;

GPT-5Chat:ChatGPT中使用的版本。

图源:OpenAI

以上前三个版本是面向开发者,开发者可根据项目对性能、成本和响应速度的不同要求灵活选择。另外,区别于ChatGPT中的GPT-5系统,API版本专门针对开发者需求优化,更适合编程和Agent任务场景。

更狠的是,GPT-5上演了一波“价格屠夫”。

对于开发者API用户来,GPT-5给出了一个几乎难以拒绝的价格:每百万token输入1.25美元,输出10美元。

这个价格不仅仅是ClaudeOpus4.1的1/15,甚至比一直以“性价比”著称的Gemini2.5Pro更便宜。

根据OpenAI评估,GPT-5在编程、数学、写作、健康和视觉感知等多个领域都实现了显著提升,同时在减少幻觉、改进指令遵循和降低谄媚方面取得了重大进展。

编程方面,据介绍,GPT-5是OpenAI迄今为止最强大的编码模型,能够处理复杂的前端开发和大型代码库调试工作。因此,它可以在一个提示中创建美观且响应迅速的网站、应用程序和游戏

比如,官方给出了示例——创建一个单页应用,包含在一个HTML文件中,具体要求为:

-名称:跳跃球跑者

-目标:跳过障碍物尽可能长时间生存。

-特性:速度递增、高分追踪、重试按钮以及动作和事件的有趣音效。

-用户界面应色彩丰富,并具有视差滚动背景。

-角色应看起来卡通化,观看时有趣。

-游戏应适合所有人玩。

动图图源:OpenAI

此外,还有像素艺术、打字游戏、架子鼓模拟器、Lofi可视化器等多个案例,感兴趣的朋友可以前往GPT-5官网查看。

与此同时,GPT-5也在多项基准测试中刷新了纪录:

数学方面:AIME2025(notools)测试得分94.6%;编程方面:SWE-benchVerified(Withthinking)得分74.9%,AiderPolyglot(Withthinking)得分88%;多模态理解:MMMU得分84.2%;健康领域:HealthBenchHard得分46.2%。

图源:OpenAI

除此之外,和o3相比,GPT-5在减少推理时间与输出字数的同时,仍能优于o3完成任务,效率提升50%-80%。

图源:OpenAI

不过,话说回来,跑分虽然强劲,这次GPT-5被吐槽的也不少。

一方面,发布会上草台班子属性尽显。

虽然图表是对的,跑分却惊现“反常识”比较:52.8大于69.1等于30.8。

图源:OpenAI

对此,有网友锐评:OpenAI不等式,52.8>69.1。

另一方面,在写作和情商能力上,不少实测显示,甚至不如GPT4.5。

Latent.Space有开发者深度测评后直言:“GPT‑5是目前最接近AGI的模型,但写作能力比GPT‑4.5还差很多”,在表达自然与语言魅力方面逊色明显。

社交平台不少网友也发表评论:

图源:公众号评论区截图

图源:微博截图

为何会出现这种“倒退”?

或许和GPT‑5与GPT‑4.5设计理念上的不同有关。GPT‑5聚焦“结构化推理+工具协作”,通俗点说,偏向于“理科生”;GPT‑4.5则注重“语言的表达与现实感”,推理能力不是最顶尖,但在语言流畅、情感表达上更贴近人类,也就是偏向“文科生”。

综合来看,这个OpenAI押注的“诚意之作”,编码能力、幻觉减少方面升级非常明显,但与“颠覆性升级”这个词可能还有一段距离。

AI圈掀起“开源热”,压力给到OpenAI

刚刚过去的7月,是史无前例疯狂的开源月:阿里(Qwen)、月之暗面(Kimi)、智谱(GLM)等十多家AI公司都跟了开源模型。

在开源模型性能持续追赶的现状下,始终坚持闭源路线的OpenAI压力是不小的。这不,最近匆忙也“跟团”开源了两款大模型,即便如此,主模型GPT-5的路线仍是闭源的。

在这个过程中,人们也很难不把目光聚焦到DeepSeekR2的上线及表现。

图源:微博

2025年初,DeepSeek成为第一个复现OpenAIo1的模型公司,以一己之力引领了这半年的开源模型浪潮。

不过,据周鸿祎透露,梁文锋现在一门心思想搞AGI。若DeepSeekR2还只是单一模型,目前团队重心不在它身上,它的上线时间只会比我们想的更晚。

并且,若梁文锋想在DeepSeekR2上直接实现智能体或者AGI的雏形,那他的研发必定很艰巨,上线的时间同样不会很快。

当然,目光从DeepSeekR2上移开,国内大厂近期在大模型上也是“卷疯了”。

腾讯这边,近期开源了全新的混元大模型,提供了从5亿、12亿、36亿到70亿等不同参数规模的模型版本,以适应从轻量级端侧应用到服务器级别任务的不同需求。

阿里巴巴这边,通义千问系列7月、8月进行了连续的更新升级。

最新消息传言,百度在紧急迭代,奔着OpenAI去了。

知情人士称,百度最快将在8月底推出文心大模型最新版推理模型,目前该模型正在全力测试中。在逻辑推理、复杂计算等能力上,文心新版推理模型将超越OpenAIo3满血版。

此外,百度还计划未来数月内发布文心基座大模型最新版,有内部人士指出,新模型大概率在百度世界大会上发布。

回到开头,开源模型持续洗刷全球市场格局的背景下,OpenAI要想在激烈的竞争中保持闭源模型的领先优势,压力不言而喻。

作者|宋辉

更多精彩内容,关注云掌财经公众号(ID:yzcjapp)

以上内容仅供学习交流,不作为投资依据,据此操作风险自担。股市有风险,入市需谨慎! 点击查看风险提示及免责声明
热股榜
代码/名称 现价 涨跌幅
加载中...
加载中 ...
加载中...

二维码已过期

点击刷新

扫码成功

请在手机上确认登录

云掌财经

使用云掌财经APP扫码登录

在“我的”界面右上角点击扫一扫登录

  • 验证码登录
  • 密码登录

注册/登录 即代表同意《云掌财经网站服务使用协议》

找回密码

密码修改成功!请登录(3s)

用户反馈

0/200

云掌财经APP下载

此为会员内容,加入后方可查看,请下载云掌财经APP进行加入

此为会员内容,请下载云掌财经APP加入圈子

云掌财经
扫码下载

更多功能与福利尽在APP端:

  • 精选会员内容实时推送
  • 视频直播在线答疑解惑
  • 达人一对一互动交流
关闭
/