Meta MCC：通过3D感知编码器，改善2D图像到3D模型质量-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

Meta MCC：通过3D感知编码器，改善2D图像到3D模型质量: 原创 2023-02-06

Esther | 编辑

作为现阶段最成功的VR内容生态之一，Quest商店吸引了越来越多开发者发布VR内容，但这对于Meta来讲似乎还不够，其也在探索某种UGC VR生态，比如在Horizon Worlds中提供可视化开发工具，让普通人也能创造VR应用。而近期，Meta公布的一项新研究表明，未来制作AR/VR内容可能就像拍短视频那么简单。

据了解，Meta为了简化AR/VR内容开发方式，研发了一种RGB-D图像生成3D模型方案：MCC。MMC全称是多视图压缩编码，它是一种基于Transformer的编码器-解码器模型，可根据一帧RGB-D图像合成/重建3D模型，潜在应用场景包括AR/VR、3D视觉重建、机器人导航、数字孪生/虚拟仿真等等。与普通彩色2D图像不同，RGB-D是具有深度的彩色图像，相当于普通RGB三通道彩色图像加上深度图（Depth Map），二者是配准的，像素一一对应。

实际上，Meta在2018年的F8大会上，就曾公布3D照片研究，可通过双摄手机拍摄出具有3D效果的照片，其中包含一定的深度信息。其甚至还研发了将2D图像转3D的CNN模型，特点是支持单摄手机。这意味着，它如果结合MCC方案，或许可以将单摄手机捕捉的2D图像合成为3D模型。

而Transformer是一种采用自注意力机制的深度学习模型，谷歌曾使用它来增强搜索引擎，而近期比较火的ChatGPT模型也是基于Transformer。起初，Transformer更常用与自然语言处理领域，而随着它与大规模、通用类别的学习模型结合，便也开始被用于语言处理之外的领域，比如图像合成、图像分析。

利用MCC方案，3D开发/合成将有望实现规模化。随着深度传感器、深度捕捉AI模型在手机上普及，具有深度信息的图像越来越容易获得，因此MCC可使用的数据规模足够大。

研究背景

Meta科研人员指出，视觉识别的一个核心目标根据单个图像来理解物体和场景。在大规模学习和通用表示推动下，2D图像识别技术得到大幅提升，但现阶段识别3D场景/物体还存在挑战，因为2D图像源中存在图形遮挡，所以很难从单张图像合成完整的3D模型。

为了解决这一问题，一些3D合成模型依赖于多张不同角度的源图像。而如果用CAD模型来训练，市面可用的数据集规模不够多，因此限制了3D合成和理解技术的发展。

而MCC只需要RGB-D图像就能训练，图像中不可见的部分也能在3D模型中完整预测/合成。监督所使用的数据则基于含有深度信息、相机姿态的视频帧。

方案原理

MCC采用简单的解码器-编码器架构，将RGB-D图像输入到MCC中会产生输入编码，然后解码器将在输入编码中访问3D点数据，以预测该点的占用率和RGB色彩（将3D重建定义为二元分类问题）。简单来讲，MCC只需要处理3D点云数据，而3D点可以捕捉任何对象或场景，通用性比网格和立体像素更好，因此用大规模RGB-D图像数据就能训练模型。另外，RGB-D图像可通过手机的LiDAR传感器来捕捉，或是由深度模型来计算（比如MiDas、COLMAP）。

科研人员利用来自不同数据集的深度图像/视频来训练MCC，这些数据部分未包含3D场景、3D对象的全部角度，而这将需要AI重新构建。此外，MCC也可以将AI合成的图像转化为3D模型。

因此，MCC最大的特点是可预测RGB-D图像中看不见、被遮挡的3D几何形状。科研人员表示：MCC模型与基于图像的自监督学习、掩码自动编码器（MAE）的最新进展有直接关系，MAE也是通过预测图像中看不见的形状来学习图像表示。此外，MCC无需具有注释的3D数据，成本更低、数据更容易收集。

科研人员表示：研究结果表明，将基于点云的3D合成模型与通用类别的大规模训练结合，是有效的。未来，希望将这种成果扩展为通用的3D分析视觉系统，让3D重建/合成效果更接近人脑的想象力。

对比其他方案

谷歌、NVIDIA等科技公司也曾研发2D图转3D技术，分别依赖于NeRF、逆向渲染（3D MoMa），缺点是需要多张图像，而且NeRF很那从单个图像生成新的场景。其他一些方案需要使用3D CAD模型等规模有限的数据来训练，而MCC只需要通过RGB-D图像就能训练3D重建。

此外，MCC普适性好，对于未曾见过的新对象类别，也能实现“开箱即用”（支持零样本学习），直接处理成3D模型。

为了展示MCC与不同数据来源的兼容性，科研人员将其与多个图像源结合，比如：

iPhone 14 Pro（LiDAR传感器）
图像生成AI DALL-E 2
Facebook的开源3D重建数据集CO3D（Common Objects in 3D）
大型视觉数据库ImageNet
3D仿真数据集Hypersim
室内场景数据集Taskonomy

这些数据集包含了50多种常见对象类型，以及大规模场景，比如仓库、礼堂、阁楼、餐厅等等，利用它们重建的3D模型还不能一比一还原，而是看起来比原来更圆润、更卡通化，但应用在3D开发中质量足够好。未来，随着用更多数据、更多样化对象进行训练，MCC的性能还可以显著提升。

参考：

https://mcc3d.github.io

https://arxiv.org/pdf/2301.08247.pdf

（ END）

每天五分钟，轻松了解前沿科技。
—— 青亭网

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号青亭网 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术 3D模型 2D图像

12566