Meta RGB透视VR研究：摄像头距离可调、分辨率720p-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

Meta RGB透视VR研究：摄像头距离可调、分辨率720p: 原创 2022-09-30

Esther | 编辑

毫无疑问，现阶段VR的发展进度比AR较快，也更早在toC和toB市场规模应用。而近年来，在Meta、Lynx、Varjo等公司推动下，VR也开始支持AR能力，Meta下一代VR头显Quest Pro具备高清RGB视频透视能力，号称可实现高质量的VST AR模式。

与HoloLens、Magic Leap等基于光学方案的AR不同，VR头显的VST透视是通过摄像头来捕捉物理环境，并实时与AR内容叠加，显示在头显中。相比之下，光学AR眼镜是通过透光原理来显示物理环境。理想的RGB VST透视是一项巨大的技术挑战，需要解决变焦、摄像头与人眼有距离等问题。

面对这些问题，Meta将如何解决呢？在Quest Pro正式发布之前，Reality Labs就公布了一种基于AI优化的VST透视方案，从中也许可以提前了解到新款VR头显可能具备的特性和功能。

VST透视难点

VST透视解决了光学AR的一些技术难点，但同时也带来了一些新的挑战，其中最难的，就是基于摄像头数据来重建物理世界，模拟肉眼看世界的视觉观感。也就是说，VST透视图像的分辨率、色彩保真度、深度信号、视角等方面需要与自然的视觉相匹配，而且头显在移动时，透视画面需要尽可能减少延迟。

由于VST透视相机的位置与人眼位置不一致，会造成视角偏差，因而长时间体验不够舒适，容易产生视觉伪影。

为了解决上述问题，Meta Reality Labs研究了一种全新的VST透视方案：NeuralPassthrough，从展示的效果图来看，这种基于神经网络的方案在畸变、色彩、图像质量等方面上表现优秀，可合成准确的立体视觉，效果比Quest 2透视功能大幅提升。

目前，Quest 1&2仅支持黑白透视，而且画质粗糙、存在畸变，不禁让人联想到早期的黑白电视。要提升VST透视效果，不仅需要升级传感器，还需要优化图像算法，来优化畸变和伪影等瑕疵。

Meta解决方案

Meta表示：VST透视对图像质量、算力、立体视觉、视场角等有很高的的要求，尤其是若想在移动设备上运行高质量的VST透视功能，还有很长的路要走。VST透视还需要识别物体之间的遮挡，即使用户的手盖住一部分环境，也能本地运行此前捕捉到的物理环境模型。

在这项研究中，Meta致力于打造一种硬件最简化的透视系统，因此仅采用了一对立体RGB相机。但这又意味着，需要对整个软硬件系统优化，才能找到合适的相机布局和匹配的视图合成算法。

在实验中，Reality Labs科研人员改造了一台Rift S头显，采用Azure Kinect DK作为立体摄像头模组，支持实时深度预测。每个RGB相机的采样率为30Hz，分辨率1280x720，视场角分别为90°。

在立体相机布局方面，Meta希望寻找一种将3D捕捉规模最大化的方案，尽可能减少被遮挡的区域，从而减少去遮挡和视图合成算法的工作量。在透视手掌、手柄等位于近距离的紧凑目标时，两个立体摄像头可通过互相补偿来捕捉被遮挡的场景。

科研人员将两个立体摄像头放在与人眼垂直的位置（基于标准IPD），并与光学元件的中心对齐。两个摄像头直接面向前方，与人眼的距离为9.3厘米。理论上讲，摄像头之间的距离应该与人眼瞳距一致，但考虑到每个人的瞳距会有差异，这种一致性很难实现。Meta提出，可一定程度上将摄像头放在比瞳距略宽的位置，目的是降低透视遮挡范围。

有趣的是，该方案似乎支持调节立体相机的位置，范围在5.4厘米到10厘米，以适应大部分人的瞳距。

算法方面，NeuralPassthrough对立体相机捕获的图像逐帧处理，渲染成具有双目立体视觉的图像。也就是说先捕捉具有深度和颜色信息的2D图像，然后利用深度学习模型处理成深度图，并通过神经网络来重建3D视图。

为了进一步优化计算，NeuralPassthrough的深度预测环节将2D图像匹配问题降低到1D，并采用了立体匹配算法RAFT-Stereo。经过训练，该深度预测网络可通过相邻像素和单目深度线索来生成合理的3D视图。

RGB-D锐化的目的主要是优化飞行像素这种伪影，根据深度图将物体的边缘锐化，从而渲染出明显、干净的深度。这对于后续的去遮挡和过滤步骤也很重要。

尽管NeuralPassthrough的计算延迟达32毫秒，Reality Labs认为还是有进一步改进的机会，比如降低深度预测模型的刷新率（30Hz），将节省出的算力用于提升色彩重建的刷新率（72Hz）。

Meta还表示：3D视频透视的质量会受到深度预测结果影响，深度测量模块在大多数情况下可产生合理的结果，但对于几何细节丰富的对象、外观根据视角变化的材质或缺少单眼深度线索等情况，现有的深度测量技术还不够理想。

利用AI重建高质量物理环境

Reality Labs科研人员表示：与以前的方案不同，我们利用深度学习的最新进展，将VST透视作为一种基于图像的神经渲染问题来解决。

NeuralPassthrough的成像过程包含了立体矫正、左右眼像差预测、RGB-D锐化、去遮挡过滤等步骤。也就是说，RGB-D摄像头捕捉到的图像需要经过AI算法调整，才会输出到头显的显示屏中。

除此之外，AI算法首先通过摄像头来识别周围空间的深度，以及空间中的物体，然后又建立了一个与人眼位置对应的合成视角。

NeuralPassthrough的AI算法是利用合成数据训练而成，这些数据包含了80个空间场景的多个视角，可以很好的帮助神经网络灵活的识别周围的空间，而且可兼容不同的相机方案和瞳距。适应不同的瞳距很重要，我们知道瞳距调节一直是VR的一项关键功能，如果透视摄像头的位置是固定的，那么将需要AI算法去调节摄像头视角，以匹配不同用户的眼睛位置。

NeuralPassthrough支持1280x720的分辨率，延迟达32毫秒。对于高质量的VST透视来讲，这个配置其实并不够好。出现这一局限的原因可能与VR一体机算力有限有关。在Reality Labs的研究中，科研人员采用了台式机来为VR头显提供算力，而且为左右眼各采用一个高端显卡来进行渲染。

另外，AI合成算法需要配备更好的深度传感器来优化透视效果。目前，NeuralPassthrough还无法重建环境光反射效果，因此依然会存在伪影。未来，还将利用多帧重建方式来提升空间重建的质量和时间一致性。

参考：

https://research.facebook.com/publications/neural-passthrough/

（ END）

每天五分钟，轻松了解前沿科技。
—— 青亭网

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号青亭网 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术科技艺术 VR研究

13116