不知道你是否注意到了,在过去一个季度里,一级市场上跑出了两个明显的趋势。
一个趋势来自于资金端,在募资端经历了长达10个季度的冷淡行情后,突然迎来了小阳春。以红杉高瓴IDG为代表的老牌美元基金纷纷开启了金额动辄高达数十亿美金以上的募资行动,而其他市面上诸如Monolith、源码、黑蚁等相对年轻的厂牌基金也都不断传来募资成功的好消息。整个一级市场,从资金层面一下子就活络起来了。
另一个则是投资端。一方面,在最近一个月内曾经重仓的芯片和大模型赛道,接连创造了一个又一个市值规模超数百亿甚至千亿的IPO或者并购退出交易,一级市场的投资信心又一次被激活了。
另一方面,在过去一个季度里市场上成功交割的项目数量相较于以往指数级成倍增长,各种夸张说法在市场上疯狂传播,例如某头部美元基金在12月被传交割了30多个项目,平均下来每天都不止一个。
而分析这些新获得融资的项目所处的赛道类别来看,你会发现一个惊人的事实,那就是70%以上的项目都是硬件项目。也就是说,一级市场的资金都在疯狂地砸向硬件,这个原本被认为是命中率极低赛道突然之间就支棱了起来。
AI硬件潮来临
1月8日,阿里云在被誉为深圳源起之地的蛇口海上世界,举办了一场智能硬件展。
从天上飞的Evote到地上跑的新能源汽车,从带有摄像头的AI耳机到陪伴儿童的AI萌宠,从席卷全球的激光雕刻机到创意无限的消费级3D打印机,从能歌善舞的人形机器人到风格迥异的AI眼镜们,市面上炽手可热的AI硬件赛道各个垂类的产品都在这个展中被呈现了出来,这些新物种都接入了同一个“大脑”,就是阿里千问模型。
可以说,阿里云的这个展某种程度上就是整个中国AI硬件产业发展现状的缩影。这种繁荣现象的背后,其实暗藏了影响硬件产业的4条关键发展脉络的交汇与耦合共振。
最直观的是,AI大模型能力的快速提升,使得硬件的多样性和想象力被极大的丰富。这个层面会存在两种完全不同的情况。第一种,AI能力使得原本很多硬件的体验被改变,场景价值被深化,值得用AI来重新做一遍。用阿里云通义大模型业务总经理徐栋将其比喻为“(场景价值)体验的一个延长线”。例如录音笔和摄像头等都是很具象的例子,原本的功能就是将捕捉音视频并将其结构化数据存储起来,以便以后查询使用,而有了AI后这个基础上可以主动去挖掘这些数据的价值,可以帮使用者转译、整理、甚至生成脑图和标注重点。AI硬件赛道的热门项目Plaud就属于这种情况。
另一种则是伴随AI大模型而产生的原本并不存在的硬件产品品类,一般将其称之为AI native硬件或者原生AI硬件。从最早的AI pin和Rabbit,到现在AI萌宠或陪伴机器人等,随着模型能力的提升和场景的收敛聚焦,这类型的产品应用价值也开始慢慢显现出来。
第二条线则是伴随着关键性技术或者产业链发展,使得原本不太可能造得出来,而现在却可以突破的硬件产品。例如智能戒指的出现,离不开一种叫做弧形电池的关键元器件。比如Rokid或者阿里的夸克眼镜这种带透明显示AI眼镜产品,离不开芯片成熟工艺对表面浮雕衍射光波导和MicroLED显示芯片这两个最关键半导体元器件的加持。
另一个关键要素则是来自于人,随着中国过往硬件产品和产业链的发展,以深圳为典型代表的城市中,沉淀发展出了一批在硬件产品工程领域颇为优秀的年轻人才。其中以大疆的人,在一级市场中颇受追捧,去年四季度有新闻报道说,投资机构以2000万天使轮为条件在大疆楼下摆摊捞人创业。尽管个人认为有夸张成分,但足以说明大疆人才的受欢迎程度。另外数据也在佐证这一点,在这个阶段硬件被投项目中,创始人背景出自大疆等大厂的比例很高。
为什么一级市场的钱在这个节点点火,比较公允的说法是,从AI大模型的投资节奏来看,前年投基础模型,去年投应用,今年就轮转到AI硬件了,从资金来源来看,这批基金的募集时期大多在2020、2021年前后,受疫情影响延缓了投资节奏,积压到现在出手会比较迫切。但硬件创业者们更偏向于一个更现实的说法,那就是诸如Plaud等火热的项目,已经证明了AI硬件的商业价值,结果已经摆在那里了,投资人怎么都挤不进去,谁也不想再错过第二个Plaud。
人、关键产业链、AI大模型,这三条线就或明或暗的相遇在了这同一个历史阶段碰撞耦合,再碰上一级市场的钱如火星般地涌入,使得硬件市场这一原本长周期、低成功率的赛道被突然点燃,AI硬件的浪潮就这么袭来了。
硬件和AI的鸿沟
随着AI硬件的爆发,硬件产业拥有了全新的想象空间和市场空间,但是同时也给硬件产业和从业者带来了全新的挑战。
一面是AI硬件从硬件的产品定义和形态设计上会呈现出更多的多样性,尤其是很多都属于创新品类的产品。硬件产业链从芯片、工艺制造到整机组装等各个环节,都得花足够的时间和精力去探索全新品类的全新要求,例如在AI眼镜的整机组装上,即使到现在,一些消费电子产业拥有领先组装口碑上组装厂所拿出的产品,也依旧难逃廉价的塑料感。
硬件的工艺,总归是可以通过时间来不断试错进步的。但是在软件层面,单单大模型在软件端的简单应用,就已经是很多硬件从业者不得不面对的门槛,更不用提一些复杂深层次的应用了。
软硬件能力的叠加要求,使得AI硬件的门槛水涨船高。从前年开始,硬件市场快速造富了一批专门从事帮助硬件中小品牌接入AI大模型的业务团队。例如,有软件团队自己开发一个接入大模型能力的app,实现对话、翻译、备忘、识别等常见AI功能。然后,将这个app通过license的方式兜售给硬件品牌,硬件通过这个app,从而实现变成名义上的“AI硬件”。
这种方式显然存在明显的弊病,最直观的是功能难用,这种app并不为某一单独设备或者场景做细节优化,通过一款app就要适配耳机、眼镜、音箱等等非常多类型的设备,功能充其量就是能通,实在难言有用。其次是用户和数据的归属存疑,软件开发者往往希望将硬件的使用者变成app的用户,从而在这种业态模式下增加其app的竞争力与议价权。
当然,最难接受的还是成本考量,这种app的license单台报价通常在5元,最贵的甚至能到20元。也就是说,对于硬件厂商而言,在这种模式下,不仅要付出高额的成本,还得帮别人做用户与数据,最终收获却是一个功能实在是鸡肋的所谓AI app。
不合理的方式能够长时间的存在,对很多人来说显然这是不得已的选择。
多模态交互开发套件的破局
显然,如火如荼的AI硬件产业链,需要一套低开发门槛,功能场景丰富,高质量效果输出的AI接入方式。
1月8日,在阿里云通义智能硬件展上,阿里云发布了多模态交互开发套件。这是一套集成了千问、万相、百聆三种模态通义基础大模型的开发套件,将十多款生活休闲、工作效率等领域的Agent和MCP工具预置其中。一举切中AI硬件赛道的痛点,在市场引起了很大的讨论热度。
这背后主要有这么几点原因。首先是功能场景的丰富。随着AI硬件的发展,摄像头、麦克风、扬声器等多种传感设备,在不同产品类别的排列组合有极大的差别,不同的硬件对模型的能力要求也千差万别,对于平台而言,套件中既需要能满足单一模态的交互需求,又要求能提供横跨视频、语音、文字的多模态交互体验。
阿里云的多模态开发套件的能力体现,不仅在能听、会看,还能思考并且与物理世界交互,而且能垂到不同硬件类别中都有很好应用体验,诸如AI眼镜、学习机、陪伴玩具、智能机器人等。
其次是高质量的输出效果。以在展会现场与阿里云达成战略合作的听力熊为例,它所做的AI硬件产品是一个能理解儿童独特表达方式、有情感共鸣的AI成长伙伴。这个儿童交互的产品定位决定了其对AI的要求很高,不仅要听得清,听得懂,还有回得快,回得准,能理解情绪,能共鸣感情。高粘性和高使用时长的结果实证,足以证明基于阿里云多模态交互开发套件的的高质量输出效果。
较低的开发门槛是当前硬件从业者们最现实考虑的因素。阿里云还在这一套件中预置十多款MCP工具和Agent,覆盖生活、工作、娱乐、教育等多个场景,例如,基于预置的出行规划Agent,用户可直接调用路线规划、旅行攻略、吃喝玩乐探索等能力。
此外,该套件还接入了阿里云百炼平台生态,用户不仅可以添加其他开发者提供的MCP和Agent模板,还能通过A2A协议兼容三方Agent。对于开发者而言,只需要简单的“拖拉拽”就能实现复杂AI场景应用的开发,极大程度地扩展了应用的能力边界,灵活搭建业务场景。
当然,最重要的还是成本的考量。以往大模型厂商对AI应用的计价方式以token为单位来衡量的,类似于水电燃气的按用量计价。但是这种计价方式对于AI硬件厂商来说是极不友好的,因为要达成他们对于硬件用户这种计量付费方式几乎是不可能实现的。所以要么其预估其硬件生命周期内的token消耗量将其折价进硬件成本中,要么其实现对用户的长尾运营,进而通过订阅费的方式将成本收回。这些显然对于硬件从业者来说都是麻烦了,最好的就是以往他们就熟悉的商业模式来进行。阿里云这次迈出了关键的一步,直接把门槛“砸”穿了,将计费模式从不可控的Token改为更符合硬件销售逻辑的“按设备License”计费或低成本套餐。
更低的成本、更好的效果、更低的开发门槛,构成了阿里云多模态交互开发套件在硬件圈掀起不小声浪的关键要素。
千问怎么就变成了AI时代的“Android”?
字节曾经推出过一款名为ola friend的AI耳机,而所谓AI耳机和普通耳机最大的区别就是其与豆包app更好的交互体验。
具体的体现主要有两点,其一是交互的低时延,其二是锁屏状态下豆包的唤醒与通信。
而不管是出于哪一点目的,都促使字节跳动在其首款AI硬件上做出了一个非常大胆且违背行业常识的尝试:用越级的手表芯片恒玄2700去做一款耳机。对,你没听错,就是用手表旗舰MCU去做耳机。
这说明了,要想在AI硬件上获得很好的交互体验,专门针对底层芯片的优化工作是必不可少的。
千问、万相和百聆三款阿里通义家族模型都已是各个模态领域最强的模型之一,但阿里在模型商业化的探索上也走在了前列。例如,针对硬件场景,阿里云做了更深度和更广泛的优化,这次发布多模态交互开发套件适配了30多款主流ARM、RISC-V和MIPS架构终端芯片平台,满足市面上绝大多数硬件设备的快速接入需求。下一步,更是计划从更底层的芯片IP层面深度融合,与玄铁RISC-V实现软硬全链路的协同优化,实现通义大模型家族在RISC-V架构上的极致高效部署和推理性能。
此外,在模型优化层面,除通义模型家族外,阿里云还针对大量多模态交互场景进行分析,推出适合AI硬件交互的专有模型,全面支持全双工语音、视频、图文等交互方式,端到端语音交互时延低至1秒,视频交互时延低至1.5秒。
同时,阿里云还走向了垂类场景的实践。同时推出了面向智能穿戴设备、陪伴机器人、具身智能等领域的解决方案。
在AI眼镜领域,基于千问VL、百聆CosyVoice等模型,阿里云打造了感知层、规划层、执行层以及长期记忆的完整交互链路,可一站式实现同声传译、拍照翻译、多模态备忘录、录音转写功能,有效解决交互不自然、回答准确率低的难题。
面向家庭陪伴机器人场景,基于千问模型和多模态交互套件,阿里云推出的解决方案不仅可实时监测异常状况,并及时告警信息推送,用户还能基于关键词查找、定位视频,与机器人进行对话交互和控制设备等。
某种程度上,千问已经成功进化为“AI时代的Android”。就像Android适配了各种屏幕尺寸的手机和平板,千问也在向“无处不在”演进。无论是手机、眼镜、PC还是汽车,千问都能提供一致的、适配终端特性的交互体验。
它不再局限于回答问题,而是通过强大的模型能力(大脑)、阿里丰富的商业生态(手脚)以及多元的硬件载体(身体),构建了一个能够感知环境、理解意图并主动提供服务的智能体生态。对于用户而言,这意味着AI真正从“炫技”走向了“实用”,成为了生活中不可或缺的智能伙伴。