远落后于VR,AR面临三大挑战(视场、分类、自适应设计)
由于苹果和谷歌AR追踪技术已经掌握在数以百万计的开发者和用户手中,市场对此产生了大量的关注和报道,而你可能会认为我们一直幻想的沉浸式增强现实体验即将到来。尽管我们比以往任何时候都更加接近于这个未来,但事实上,沉浸式增强现实在成为主流之前仍需要多年的研发和设计工作。以下映维网将和大家一起看看当前增强现实技术正在面临的一些关键挑战。
1. 沉浸式视场
在看完酷炫的ARKit演示视频后,我们很容易想象完全占据视场的全屏幕视图将有多么神奇。但现实情况是,即便是当前最优秀的便携式AR头显开发套件,其视场仍十分有限(远比不上今天的VR头显,而且部分人认为当前VR头显的视场也并不足够)。
从许多方面来说,HoloLens是当前开发者能够购买的最佳AR头显,但其视场也只不过是34度左右,远比不上谷歌Cardboard(大约为60度)。文章中的视频把全视场与约34度的视场进行了对比,结果显示你在任何时刻内都只能看到增强现实世界的一小部分。
这非常重要,因为要实现合理的沉浸感,增强世界需要与现实世界无缝融合。如果无法立即看到大部分的增强现实世界,你将发现自己需要不自然地“扫描”环境,以找出AR对象的实际位置(就像在使用望远镜一样),而不是说你的大脑能够直观地映射AR世界,并将其看作是现实世界的一部分。
并不是说34度视场的AR头显毫无用处,它只是不够身临其境而已,因此无法深入地沉浸你的自然感知,同时意味着它不太适合这种直观的人机交互,不是消费者和娱乐用途的理想选择。
有人或许会说,“那拥有90度视场的Meta2 AR头显呢?”这个问题问得好。
没错,Meta 2是目前拥有最大视场的已知AR头显,接近于今天的VR头显。但这款设备的体积十分庞大,也没有在不牺牲大部分视场的情况下小型化其光学系统的明显解决方案。
Meta 2的光学镜头其实很简单。头显那大大的“帽檐”部分包含跟智能手机类似的显示器。大型塑料遮光罩有一部分进行了镀银处理,并将显示屏上的内容反射到用户的眼睛里。缩小头显意味着缩小显示屏和遮光罩,这显然会减少视场。Meta 2对开发者来说可能是非常好的设备,他们愿意为开发未来的设备而忍受笨重的头显,但对消费者而言,Meta必须采用不同的光学解决方案来达到如此视场。
在这方面,ODG正在研发一种类似但体积更小的光学系统,并且能够实现最高为50度的视场,亦即1800美元的R-9 AR眼镜。然而,它们也只能勉强接近于消费者可以接受的尺寸。在另一边,Lumus采用了不同的光学解决方案(波导),成功在2mm厚的光学元件中实现了55度的视场。
约50度的视场还不错,但远远比不上当前高端VR头显的约110度视场,而且消费者仍在要求更宽的视场。对于真正身临其境的视场而言,我们很难判断一个具体的数字,而Oculus过去曾认为我们需要至少90度视场才能体验真正的临场感(至少在这方面,VR行业中的大部分人都予以认同)。
2. 实时对象分类
苹果的ARKit技术和谷歌的ARCore技术能让你在智能手机上实现一些非常炫丽和新颖的类AR体验,但在大多数情况下,这些系统仅局限于“理解”地板和墙壁等平面。这就是为什么现在iOS上99%的AR应用和演示作品都只能发生在地板或桌子上。
为什么是地板和墙壁呢?因为它们很容易分类。地板或墙壁的平面与另一地板和另一墙壁的平面相同,所以系统有信心假定这一平面能够向所有方面延展,直到与另一平面相交。
注意,我在这里是使用“理解”一词,而不是“感知”或“检测”。这是因为尽管所述系统或许能够“看到”除地板和墙壁以外的对象的形状,但目前无法理解它们。
我们不妨把杯子作为例子。当你看着一个杯子时,你看到的不仅只是一种形状,你对杯子已经十分了解。了解有多少?下面让我们一起看看:
我可以继续往下说…我想说的是,计算机并不知道任何这一切。它只能“看到”一个形状,而不是一个杯子。计算机无法得到杯子内部的完整视图,无法映射出完整的形状,计算机甚至不能假定杯子内部存在一定的空间。计算机也不知道杯子是独立于其所在平面的一个对象。但你知道这一切,因为它是一个杯子。
然而,令计算机视觉能够理解“杯子”,而不仅仅只是看到一个形状,这是一个非常重要的问题。所以这么多年来,我们在AR演示作品中看到人们把基准标记附加到对象身上,以实现更细致的追踪和交互。
为什么如此困难呢?第一个挑战在于分类。杯子有数千种形状,大小,颜色和纹理。部分杯子拥有特殊的属性和特殊的用途(如烧杯),这意味着不同的杯子被用于不同的场景和背景。
你可以想象编程这么一个可以帮助计算机了解所有上述概念的算法的挑战;你也可以想象编写一个向计算机解释杯子和碗之间区别的代码的挑战。
仅仅只是一个简单的杯子就存在如此巨大的挑战,更不用说世界上那数千或数十万件常见物品。
当前基于智能手机的AR发生在你的环境之中,但你很难与之进行交互。这就是为什么你今天在智能手机上看到的所有AR体验都被固定在地板和墙壁上。这种系统不可能与我们周围的世界进行令人信服的交互,因为虽然系统能够“看到”地板和墙壁,但不能“理解”它们。
对于我们所向往的科幻式AR(亦即AR眼镜能够向我展示杯子里的咖啡的温度;或者说把微波炉的剩余时间显示在其上方),我们需要系统“理解”更多关于我们周围的世界。如烧杯),这意味着不同的杯子被用于不同的场景和背景。
你可以想象编程这么一个可以帮助计算机了解所有上述概念的算法的挑战;你也可以想象编写一个向计算机解释杯子和碗之间区别的代码的挑战。
仅仅只是一个简单的杯子就存在如此巨大的挑战,更不用说世界上那数千或数十万件常见物品。
当前基于智能手机的AR发生在你的环境之中,但你很难与之进行交互。这就是为什么你今天在智能手机上看到的所有AR体验都被固定在地板和墙壁上。这种系统不可能与我们周围的世界进行令人信服的交互,因为虽然系统能够“看到”地板和墙壁,但不能“理解”它们。
对于我们所向往的科幻式AR(亦即AR眼镜能够向我展示杯子里的咖啡的温度;或者说把微波炉的剩余时间显示在其上方),我们需要系统“理解”更多关于我们周围
Copyright ©2015~2025 www.kingtall.com 网站ICP备案号:粤ICP备14001765号-1