从单目数据生成3D模型，Meta智能眼镜摄像头校正算法揭秘-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

从单目数据生成3D模型，Meta智能眼镜摄像头校正算法揭秘: 2023-07-12

Esther | 编辑

众所周知，Meta下一个目标就是AR眼镜，尽管开发AR比VR面临更多复杂的难题，因此可能还要过一段时间才能看到Meta的AR眼镜。目前，该公司已推出了第一代Ray-Ban Stories智能眼镜，特点是搭载的双摄像头不仅可以拍照，更重要的意图在于捕捉具有双目视差的3D数据，进行第一视角的分析和利用，从而推动贴近日常生活的AI应用。

通过Ray-Ban Stories，Meta可以了解到穿戴式设备在实际应用中会出现的问题，比如摄像头、传感器被遮挡，性能下降，捕捉到的3D数据不完整等等。

在最新的论文中，Meta进一步揭秘了Stories采用的3D深度传感方案，其中包含一种新颖的实时校正算法，一种单目和双目视差网格协同设计，以及从单目数据导出3D数据集的方式。同时，该方案结合配对手机的GPU来处理3D数据，比如图像预处理、立体校正和深度估计。

据了解，该方案的重点主要是优化3D深度传感的性能，同时为了确保准确性，系统还会识别校正数据的可靠程度，不可靠时会退回至单目深度预测模式。另一方面，Meta科研人员希望让算法适用于更广泛的设备，包括比较旧的手机型号，而不依赖特定的硬件。

Meta指出，即便使用6年前发布的Galaxy S8手机，CPU计算3D视图的时间也能低至1秒，而且模型泛化能力比较好。

技术挑战

科研人员指出，立体视差预测是计算机视觉的基本问题之一，这项技术在多种领域都有广泛应用，比如AR/VR、计算摄影、机器人和自动驾驶等等。

然而，在端到端深度传感系统中合成立体图像面临许多挑战，对于移动设备来讲，算力是最大的局限。因此，Meta根据手机上有限的算力，设计了这种比较实用的3D图像处理管道。这也意味着，管道中的步骤需要协同工作，在出现故障或数据不理想时更好的进行调整，校准因不可预见因素对性能的影响（比如高温、户外）。

Meta表示：我们希望智能眼镜足够通用，因此需要让更多类型的手机与之匹配，而不能依赖于特定的硬件或机器学习加速模型。而这项研究的主要目标，则是为3D计算摄影带来最佳的用户体验。

解决方案

为了确保3D捕捉的稳定性，Meta研发了一套实时的校正系统，其优势包括：

端到端3D数据处理系统，可动态调整数据处理模式；
包含快速、稳定的线上校正算法；
3D深度系统和单目深度系统输出格式相似；
在有限的算力下，依然能达到足够准确。

细节方面，该方案的运算流程如下：将智能眼镜输出的3D数据进行出厂校正、去畸变、降采样（降低两倍）、HDR包围曝光，然后在线上校正，校正质量达标后，会输入到立体CNN网络中，然后进入渲染管道，生成涂层、纹理修复、网格等等。如果校正质量未达标，则退回到单目模式，输入到单目CNN网络中处理，然后再进入渲染管道，生成新的视角。