去创作

用微信扫描二维码

分享至好友和朋友圈

OpenAI、谷歌新模型一夜刷屏,压力给到DeepSeek

巨头齐发,谷歌先行亮剑

昨夜AI圈彻底炸锅了!

谷歌、OpenAI、Anthropic三大巨头在不到24小时内接连甩出王炸,引发了全球科技界的广泛关注。

这场大乱斗的导火索,竟是谷歌DeepMind凌晨突然祭出的「创世引擎」——Genie3。

这个被外媒称为「ChatGPT时刻」的世界模型,彻底颠覆了人类对AI的认知。

图源:X

Genie3最引人注目的特点之一就是它的实时交互能力。与以往的模型不同,Genie3能够生成“前所未有的丰富交互环境”,并且是首个支持实时交互的世界模型。

例如,你只要输入「冰雪奇缘中的魔法森林」,Genie3就能在2秒内生成一个720P、24帧/秒的可交互3D世界,你甚至能指挥AI角色在森林中采摘发光蘑菇,或者召唤一场彩虹雨。

此外,Genie3还首次加入了“可提示的世界事件”和“视觉记忆”等关键特性,这些特性使得模型能够根据用户的输入动态地改变世界的状态。

这也意味着用户可以在生成的动态世界中多视角自由探索,并且即使多次往返,同一地点的同一物品细节仍能保持一致。

这种“记忆力”对于模型来说是一项重大技术突破,也为未来的游戏、机器人训练以及自动驾驶系统等应用提供了更广阔的可能性。

从技术细节上看,Genie3是一个拥有110亿参数的模型,其训练数据来源极为广泛,不仅包括了海量的互联网视频,还涵盖了现有的3D环境数据集。

模型的一大创新在于其内置的“潜在行动模型”(LatentActionModel),该机制允许模型推断出帧与帧之间的潜在行动,从而赋予用户通过简单指令控制生成世界中角色的能力。

谷歌DeepMind团队表示,此类世界模型是通往通用人工智能(AGI)道路上的一个发展方向,因为它能为AI代理提供大量且多样化的模拟环境用于训练和测试。

目前,Genie3仍处于研究阶段,仅提供给部分学术研究人员和创作者使用。

OpenAI时隔六年再次开源

在谷歌之后,OpenAI也发布了两款新的开源模型,这是该公司自GPT-2以来,时隔数年再次发布权重开源的模型。

OpenAI此次发布了gpt-oss-120b和gpt-oss-20b两款模型,均采用了允许商业用途的Apache2.0许可证。

其中,gpt-oss-120b模型拥有1170亿的庞大参数规模,但巧妙地运用了专家混合(MoE)架构,在处理每个数据点时仅激活约51亿个参数。

这种设计极大地降低了推理时的计算成本和硬件门槛,使其能够在单张80GB显存的GPU上高效运行,其公布的性能指标与OpenAI内部的o4-mini模型相当。

图源:ifanr

另一款gpt-oss-20b模型则拥有210亿参数(36亿活跃参数),专为消费级硬件进行了优化,可在16GB内存的设备上运行,性能对标o3-mini模型。

这两款模型均支持网络浏览、代码执行等功能,为开发者提供了在本地环境部署和微调高性能模型的可能。

据OpenAICEO山姆·奥特曼(SamAltman)介绍,gpt-oss能在高端笔记本上运行,还有一个更小的版本(20b),可以在手机上运行,他的激动之情溢于言表。

图源:X

此外,OpenAI还同步开源了其使用的分词器(tokenizer),名为o200k_harmony的分词器比OpenAIo4-mini和GPT-4o所使用的分词器更加全面和先进,能够让模型在相同上下文长度下处理更多内容,对于长文本处理非常有利。

与API中的OpenAIo系列推理模型类似,gpt-oss-120b和gpt-oss-20b都支持低、中、高三种推理强度设置,开发者可以根据具体使用场景和延迟需求,在性能与响应速度之间进行灵活权衡。

例如,有网友在配备M3Pro芯片、18GB内存的设备上测试了gpt-oss-20b模型,让其一次性完成一个经典贪吃蛇游戏的编写,生成速度达到23.72token/秒,并且未进行任何量化处理。

图源:智东西

与此同时,Anthropic公司也发布了ClaudeOpus4.1模型。

相比较今年5月推出的Claude4系列模型,ClaudeOpus4.1主要改进了编码、推理和执行指令的能力。

在SWE-benchVerified测试中,其编码性能提升到了74.5%,在深度研究和数据分析技能,尤其是细节追踪和代理搜索方面表现得更加出色。

在多文件代码重构方面,它能够精确地在大型代码库中定位并修正错误,不会进行不必要的调整或引入新的错误,深受开发者喜爱。

图源:ifanr

全球热议,沸腾期待

谷歌Genie3和OpenAI开源模型的发布,让国外AI圈瞬间进入了狂欢时刻。一时间,外网各大平台上都是关于这些新模型的讨论。

有网友对谷歌Genie3的3D生成能力赞不绝口,称其“仿佛让科幻电影中的场景变成了现实,以后每个人都可以轻松成为3D世界的创造者”。

还有人感慨:“谷歌这次真的是突破了界限,Genie3可能会彻底改变多个行业的工作方式,未来的虚拟世界将会因为它而变得更加丰富多彩。”

图源:Reddit

对于OpenAI的开源模型,外网网友也给予了高度关注。

不少开发者兴奋地表示:“OpenAI终于开源了,而且还是性能如此强大的模型,这对于我们来说是一个绝佳的机会,可以基于它们开发出更多有趣、有用的应用。”

也有一些技术爱好者开始深入分析模型的技术架构和性能数据,他们在论坛上热烈讨论着gpt-oss系列模型的优势与潜力,甚至已经开始尝试将其应用到自己的项目中,探索各种可能的创新玩法。

面对国外AI巨头们的激烈竞争和新模型的不断涌现,国内AI玩家们也愈发期待DeepSeekR2的上线及表现。

不过,据此前周鸿祎透露,梁文锋现在一门心思想搞AGI。

这意味着DeepSeekR2如果还只是一个单一模型,那目前团队重心不在它身上,它的上线时间只会比我们想的更晚;

而如果梁文锋想在DeepSeekR2上直接实现智能体或者AGI的雏形,那他的研发必定很艰巨,上线的时间同样不会很快。

图源:小红书

当然,即使没有DeepSeekR2,国内近期也有很多优秀的模型迎来了更新,展现出了国产AI的强大实力。

例如腾讯近期开源了全新的混元大模型系列,提供了从5亿、12亿、36亿到70亿等不同参数规模的模型版本,以适应从轻量级端侧应用到服务器级别任务的不同需求。

该系列模型专为Agent任务进行了优化,并且支持256k的长上下文窗口,这意味着模型可以一次性处理数十万字的文档,适用于长文本分析、知识库问答等复杂场景。

还有阿里巴巴的通义千问系列也在持续迭代升级。

7月,通义千问推出了Qwen3推理模型,原生支持256K上下文处理能力,能够应对更长文本和构建更深的推理链。

8月,又推出了图像生成基础模型Qwen-Image,主打复杂文本渲染能力,能够在不同场景中准确地生成不同语种、风格的文字,甚至可以写毛笔字书法,或是直接生成带有文本和图像的PPT页面,展现了强大的多模态能力。

AI独角兽月之暗面也是在沉寂许久后突然推出数学证明专精模型Kimina-Prover-72B,其基础模型Kimi-K2跻身ChatbotArena全球前五。

总而言之,全球人工智能的霸权之争已然进入一个新的高潮。

欧美巨头以其前沿的技术突破引领方向,而中国的AI力量则以惊人的速度和创新的姿态紧追不舍,在部分领域甚至开始展现出独特的优势。

未来,我们有理由相信,AI将会给我们的生活和社会带来更多意想不到的变化,让我们一起拭目以待吧。

作者|刘峰

更多精彩内容,关注云掌财经公众号(ID:yzcjapp)

以上内容仅供学习交流,不作为投资依据,据此操作风险自担。股市有风险,入市需谨慎! 点击查看风险提示及免责声明
热股榜
代码/名称 现价 涨跌幅
加载中...
加载中 ...
加载中...

二维码已过期

点击刷新

扫码成功

请在手机上确认登录

云掌财经

使用云掌财经APP扫码登录

在“我的”界面右上角点击扫一扫登录

  • 验证码登录
  • 密码登录

注册/登录 即代表同意《云掌财经网站服务使用协议》

找回密码

密码修改成功!请登录(3s)

用户反馈

0/200

云掌财经APP下载

此为会员内容,加入后方可查看,请下载云掌财经APP进行加入

此为会员内容,请下载云掌财经APP加入圈子

云掌财经
扫码下载

更多功能与福利尽在APP端:

  • 精选会员内容实时推送
  • 视频直播在线答疑解惑
  • 达人一对一互动交流
关闭
/