采写/王舒然

编辑/万天南

想象一下,眼前有一面超大的虚拟屏幕,各种窗口立体环绕,手指左右拨动,窗口也随之滚动,大手一挥,窗口又全部消失……这样动动手指就能“操控一切”的黑科技,科幻片里应有尽有,但现实难得几回闻吧?

其实,这样的“梦”,人类已经做了30多年,自1984年美国的杰伦·拉尼尔首次提出虚拟现实的概念后,总有那么一拨人以此为志。

指针走到今天时,已经迭代出了比较衬手的工具——VR/AR设备。

但遗憾的是,现阶段很多VR/AR产品像是妥协式方案,VR头盔笨重且屏蔽外界环境,不够理想自然,而AR眼镜虽视野开放且轻量化,但其核心价值就像一块“随身显示屏”——原本用手机、电脑看信息,换成用虚拟屏看,交互操作还是手机、电脑等老样子,除了屏幕更大、更沉浸外,“科幻味儿”缺缺,难让人心动。

不过,事情开始有转机了。

8月26日,Rokid发布的AR空间计算套装Rokid AR Studio(包含Rokid Max Pro AR眼镜和Rokid Station Pro计算主机两件套),总算有那么一点“科幻味儿”了:带上AR眼镜,抬起手腕就能出现虚拟手表,握拳则显示天气情况;去4S店选车时,挥挥手就能变换汽车颜色;还有开头所述的用手指操控信息的滑动显示等等……

以此为起点,我们似乎离科幻片里的黑科技近了一大步。

有空间交互能力的AR是什么样子?

投屏之所以成为大部分AR产品的核心价值,原因在于,一项新科技要找到被大众接受的落地场景,总是需要一个漫长的过程,在用户市场还处于早期教育阶段时,新潮“炫技”的交互方式或许看起来很酷,但不一定会被大众接纳。

这一点行业是有共识的,XREAL创始人徐驰在复盘自家第一代具备环境识别等AR能力的产品Light时就表示,这个得到行业高度认可的AR产品并没有打动消费者,消费者还是更愿意用它看视频、浏览网页,做些和AR没太大关系的事。

Rokid创始人祝铭明也表示,当前阶段消费者更容易看到、更容易体验的是对过去成熟场景的兼容,比如观影、游戏、办公等,他称之为向后看,而Rokid也会将70%的精力用于向后看。

当然,所有人都认同这只是一个过渡阶段,类似科幻片中的那些黑科技才是光明的未来。

而行业要突破,总要有人先迈出这第一步。

率先做到的是Rokid,其选择的切入点是,让AR开始具备SLAM(实时定位与地图构建)、手势识别、3D空间信息展示等空间计算和交互能力。

这背后的指导思想是,在传统的手机、手柄、语音等交互方式之外,追求更自然、更极致的人机交互方式。祝铭明认为,如果新体验只比过去提升20%,是不足以打破旧的使用惯性的,至少要有几倍的体验提升才可以。

以手势交互为例,这是公认最自然的交互方式,布朗大学计算机科学的助理教授Jeff Huang就曾表示,在真实环境中,不管是扭门把手还是捡东西,用手去触碰是最直接和自然的交互方式,因此AR应用中加入手势识别会比在手机屏幕上滑动效果更好。

Rokid Max Pro所呈现的手势交互应用,除了前述的虚拟手表、变换汽车颜色、操控信息显示外,还可在游戏等更多场景中实现。比如,捏住手指就能对怪物发出攻击,裸手3D手势隔空投篮等。

而且,Rokid指关节识别的精度已经做到了厘米级,且其采用的是微手势识别,即不需要抬动上臂,手大致放在平时用鼠标的位置,即可完成交互,如此更符合人体工学,即便连续使用一两个小时,手臂也不会感到酸痛。

而这得益于Rokid 将AR眼镜摄像头调整成向下15度的贴心设计,这与苹果Vision Pro专门设置了两颗向下的摄像头,用以捕捉手垂放在腿上的视角,有异曲同工之妙。

同时,在实际使用中,手势还可以和头眼完成联动交互,带来更便捷的体验。比如,关注某项信息时,只需转动头部,眼睛聚焦于此,信息就会被选中突出,再用手指一捏就能完成点击。

值得一提的是,这和苹果Vision Pro眼手联动所追求的自然体验不谋而合,这也充分佐证了国内AR厂商的实力已经具备国际化水平。

此外,在空间信息呈现和交互方面,Rokid也带来了体验上的变革。

基本思路是,不同于手机、电脑等传统屏幕,AR虚拟屏幕打破了物理局限,每一寸空间都可以成为屏幕。由此,AR屏幕便有了横向和纵向上的无限伸缩弹性。

基于此,Rokid Max Pro重构了空间搜索和信息组织方式,提供空间多屏与空间巨幕两种展现形式:空间多屏可以同时展示多个窗口,而且,不同于手机信息流的展现,空间窗口可按信息相关性纵向排列,信息有了层次感,最相关的在第一层,相关性弱的在第二、三层;空间巨幕则是窗口可横向扩展到32:9的比例,此乃行业首创。

同时,基于空间定位,画面可以定在空中,当转动头部和身边人聊天时,可以完全不受干扰。

这种全新的体验让AR开始有了作为个人生产力工具的价值潜力,与写代码、写文章、搜索信息等工作场景天然适配。

上述种种体验的革新,足以让行业为之兴奋,当然,最终的“裁判”还是消费者。

在“轻量化”的掣肘中做创新,难

现阶段AR面向消费者端的创新突破总是“戴着镣铐在跳舞”,因为轻量化是AR的底线,任何创新都不能采用“堆料”的方式,牺牲消费者配戴的舒适性,而是需要克制和精打细算。

这一点和苹果Vision Pro为代表的的MR设备不同,Vision Pro和以Rokid为代表的AR眼镜的目标是一致的,即虚实融合,但在实现路径上大相径庭。

Vision Pro采用VST(视频透视)方案,是先利用摄像头等传感器捕捉真实世界影像,再投射到屏幕中,以此完成虚实融合;而Rokid等AR产品走的是OST(光学透视)方案,人可以透过镜片看到真实世界,就像平时的眼镜一样,再把虚拟屏幕叠加其上。

由此带来的产品形态完全不同,前者像封闭、“笨重”的头盔,后者则是开放、轻便的眼镜。

在祝铭明看来,不可能所有人都愿意用头盔把自己包起来,总有人更愿意用肉眼去看真实的世界,这是Rokid之所以坚定OST路线的底层人文信仰。

这也决定了,追求轻量化和可长时间佩戴的舒适度是AR眼镜面向消费者市场永恒的主题。

基于此,Rokid下了不少功夫,比如推出Station分体式主机,将显示和算力分离,比如,持续降低AR眼镜的重量,从Rokid Air的83g降低到Rokid Max的75g。

这些苦功赢得了一拨消费者的认同,据祝铭明透露,今年上半年Rokid在消费市场的业绩同比增长150%,Rokid月活跃用户比例超过40%,人均单日使用时长超过1小时,内容付费率也超过20%。

在Rokid发布会上,Google大屏业务亚太区负责人Dan更是当众“表白”,其表示曾连续使用Rokid AR眼镜超过10小时,都不觉得疲惫或不舒服,而这是其他产品所提供不了的体验。

对轻量化的克制,在此次Rokid创新性的空间交互体验上,体现得更淋漓尽致——实现SLAM空间定位和手势识别能力,Rokid只用了一颗摄像头。

对比来看,Vision Pro可是配备了6个SLAM+手势摄像头,其中有两颗向下的摄像头专门捕捉手垂放在腿上的视角,还有两颗斜向下的摄像头同时兼顾SLAM和手势;微软主要面向B端的AR眼镜HoloLens也采用了4个可见光摄像头、2个红外摄像头,这使得产品重量居高不下,Vision Pro和HoloLens均超过400g,而Rokid Max Pro重量仅有76g,相比上一代的Rokid Max,只多了1g。

同时,“堆料”也会使产品价格颇具份量,Vision Pro和HoloLens售价均超过3000美元,而Rokid AR Studio套装只需8998元。

做到这一点并不容易,基于单目摄像头的SLAM和手势识别技术方案一直是AR技术攻坚的难点。

祝铭明直言,即便是一些行业元老,也一直不相信基于单目就能实现相关能力。

原因在于,双目或多目摄像头能从不同位置获取图像,从而利用视差获得比较准确的深度信息,以此分清物体的远近距离,还能扩大捕捉范围,而单目只有一个平面摄像头,在深度和广度上均受限制。

“台上一分钟,台下十年功”,Rokid对此进行了多年的技术探索才得以突破。

以单目SLAM为例,Rokid的技术方案是在AR设备初始化时,利用人的微移动对不同位置的图像进行捕捉,以此获取深度信息,而初始化时间大概只需1秒钟,消费者几乎无感。

同时,Rokid还结合芯片做算力升级,以及从底层重构了整个操作系统。

芯片层面,Rokid搭载的高通第一代骁龙XR2+,能提升续航和散热能力,支持并行感知技术,包括头部、手势、手柄追踪、3D 重建以及多屏幕多任务运行等能力。

操作系统层面,四五年前,Rokid就已经在自研底层操作系统YodaOS-Master,其重构了全新的交互标准,这是AR空间交互能力的灵魂所在,就如同iOS之于苹果、鸿蒙之于华为。

在祝铭明看来,AR的根基不在光学,不在硬件设计,而在于操作系统和软件。

或许,正是因为有了这样“超前”的判断和认知,Rokid才能比别人走得更快一步。

新的3D生态开始了

鉴于目前AR行业在交互范式、操作系统等方面并无统一性和稳定性,因而Rokid此次在空间计算和交互上的创新,不仅是自家能力的进化,于行业而言,也有指导意义。

如果说苹果Vision Pro给走VST路线的厂商立了标杆,那Rokid AR Studio则是给OST路线带来启发——即如何在“螺蛳壳里做道场”。

一方面,Rokid会先一步对消费市场进行教育,并拿到市场反馈。

这是有碰壁风险的,但如同祝铭明所言,引领者就是要在黑森林里开路,跑到前面承担代价,帮助大家探索,再将成果分享出来。

另一方面,Rokid在体验上的变革也刺激了AR生态的活跃,动员了大批开发者和生态合作伙伴一起共创。

目前,已经有团队基于Rokid全新的空间定位和手势交互能力研发出首批3D应用,比如咪咕视讯的移动云VR影视应用,比如AR钓鱼、AR手鼓、AR棋盘对战等游戏应用。

为鼓励生态合作,Rokid为开发者提供了全新升级的UXR 2.0 SDK,支持0/3/6DoF空间模式的选择,以及手势、射线、键鼠、语音等多模态交互方式,可以帮助开发者进行个性化应用研发。

值得一提的是,Rokid还首创自研了JSAR引擎和小组件容器,方便大量的JS开发者、网页工程师快速切入,研发出类似微信小程序等快应用,丰富应用生态。

谁敢说,这里面不会出现类似“愤怒的小鸟”、“切水果”、“跳一跳”等Killer应用呢?

当然,Rokid Station Pro仍会继续兼容旧的2D生态,比如爱奇艺、腾讯视频、优酷、芒果TV、影牛牛、随乐游、阿里无影云电脑等2D应用。

据Rokid生态负责人蔡国祥在发布会上的介绍,自去年10月份Rokid Station发布以来,Station应用商店已累计上线130多款应用,涵盖影视、游戏、办公、教育、直播、阅读等场景。

此外,今年7月,Rokid Station还与Google合作,推出全球首款Google认证的Android TV设备,即Station全球版,用户可以在Google Play下载熟悉的应用和游戏,包括 YouTube、Hulu、Disney+、TVer、AbemaTV等,这进一步丰富了Rokid应用生态。

可以预见,Rokid AR Studio的推出只是一个开始,新交互+新生态引发的“好戏”还在后头。

不过,需要理性看待的是,AR行业终究还处于早期,还有很长一段路要走。

一方面,空间计算和交互能力还要不断精进。

比如“always stand by”的空间记忆能力,即空间中的应用状态总是停留在上一次结束的位置;比如空间信息除了横向和纵向的展示外,彼此之间是否存在协同等更深层的组织逻辑。

另一方面,在AR的重量、便捷、舒适等体验上,还需持续打磨。

比如不少用户期待的一点是,能否让AR设备和主机实现无线连接。

祝铭明坦言,他只给Rokid Max Pro打60分,他理想中的AR产品至少要做到:产品要用时,可以直接打开。

但现有AR产品必须要经历“拿出主机、插上线、开机”等一系列琐碎动作,这导致用户难以像用手机一样,碎片化利用AR。

所以,Rokid的下一步计划便是“把线剪掉”,彻底无线化,预期在不久的将来便会实现。

此外,3D应用生态虽“如火如荼”,但能否探索出、何时能探索出对大众真正有价值的“刚需”场景,让AR真正走出小众圈层,甚至成为替代手机的存在,也是未知数。

好在,来自现实的正反馈一直预示着希望。据CINNO Research数据显示,今年二季度,国内AR消费级市场销量为5.2万台,同比增长251%,环比增长19%。

全球市场也是一样,据IDC统计,2022年全球AR设备出货量为27万台,其中消费级AR设备为17万台,首次超过了企业级设备。

另据IDC预测,2023年全球AR产品出货量有望达到30万台,同比增长约11%,2023年至2026年的平均年复合增长率有望达到约137%。

作为深度参与者和引领者的祝铭明对行业也颇有信心,他认为AR行业在今明两年将迎来拐点。

而上述这些漂亮的数字切实落地的希望在哪里?就在苹果、Rokid等一众厂商,及其所动员的上下游生态伙伴的持续探索里。