用iPhone前摄3D人像建模，Meta：我看行-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

用iPhone前摄3D人像建模，Meta：我看行: 原创 2022-08-01

Esther | 编辑

一说起VR头像，比较常见的形式就是卡通风格的各类虚拟角色，尽管为用户提供各种自定义选项，但重复率高，而且难以代表真人独一无二的外观。

因此，也有一些根据真人照片、视频生成的3D头像，比如ReadyPlayerMe，特点是成本低、简单易用而且在主流AR/VR平台通用。尽管如此，这样的3D头像依然不够保真，模型的细节渲染并不理想。而近期Meta公布的高保真虚拟头像Codec Avatar的最新进展，让我们看到了在VR中重现真人动态形象的可能。

3D人像捕捉成本高？

实际上，通过3D动捕/容积捕捉技术，已经可以制作高分辨率、高保真的3D头像/虚拟化身。比如，Meta研发的Codec Avatar方案就通过由171个摄像头的动捕工作室MUGSY来捕捉人脸和全身3D数据，然后生成可在VR头显中运行的高保真3D形象，在VR中还可以通过额外的眼球和面部追踪摄像头来驱动动态表情变化。

不过，这种方案缺点是依赖线下工作室，成本高昂，不利于在线上广泛应用。我们知道，如果可以用手机摄像头来捕捉3D人脸数据，将大大降低高保真虚拟化身的成本和使用门槛，因此市面上已经有科研人员对此进行探索。

在2020年，德国一组科研人员也曾研发了一种利用单目摄像头捕捉，并自动生成3D形象的低成本移动方案（计算过程大约20分钟）。不过，目前市面上的各类方案效果并不理想，尤其是保真度、表情动作模拟等方面更是无法与Codec Avatar相媲美。

而在2021年，俄罗斯Skoltech也曾公布一款移动端3D头像捕捉方案，其整体保真度足够高，主要特点是支持动态光渲染，但头发、手指、布料纹理等细节难以模拟。

今年四月，在MIT举办的Virtual Beings&Being Virtual研讨会上，Meta展示了全新的Codec Avatars 2.0系统，特点是比1.0版模型更小、更高效，在Quest 2上可以50Hz刷新率同时渲染五个高保真Avatar。

解决了在VR头显上运行Codec Avatar的问题，那么接下来Meta的目标则是降低3D头像捕捉的门槛，让每个人用手机就能收集并生成逼真的虚拟人像，这些人像甚至还能渲染合成多种逼真的表情变化。

用手机制作3D头像

据了解，这是一种移动版Codec Avatar方案，在降低成本的同时，效果却足够好，表情和细节渲染足够自然。

这项方案兼容iPhone 12等配备RGBD相机的手机（也就是前置Face ID模组），可从多个角度来捕捉静止的3D面部表情，也可以捕捉一系列面部表情变化。利用3D面部数据和动态表情数据，便可生成高保真3D头像，特点是符合面部的几何结构和外观，并且可渲染高保真的全新视角和表情。而通过修改条件数据，甚至可以定制高保真面部特征，创建全新的人脸头像。

细节方面，该方案采用了通用先前模型，针对每一个用户的特征来解码面部容积数据（可看作是一种神经网络解码模型）。

利用经过训练的通用先前模型，科研人员可为每个独立的用户创建个性化、可定制的头像模型。模型中将包含用户静止表情数据中的几何结构和纹理。科研人员表示：该模型会在RGB相机捕捉的每一帧图像上，运行面部节点识别和人像分割算法，然后在输出的数据上匹配模板网格，与检测到的面部节点叠加，并分割面部轮廓，以及输入的深度地图。

值得注意的是，通用先前模型也是一种超网络，可看作是另一个神经网络生成权重的神经网络。Meta培训先前模型使用的数据来自于此前的Codec Avatar研究，包括用3D动捕工作室捕捉的多视角3D面部数据。据悉，这个Codec Avatar数据集包含大量高保真动态表情数据（包括255个人脸数据、覆盖多样化的年龄、性别和人种）。在此前公布的成果就可以发现，Codec Avatar的数据效果足够逼真自然。

接着，模型会拆解每一帧RGB图像的纹理，并将这些纹理数据整合、输出为完整的面部纹理。Meta还通过RayMarching技术进一步优化3D头像建模，这是一种快速的实时场景渲染方式，即通过射线触碰虚拟物体，来测量深度信息，以实现更准确的建模。

动态表情模拟

该方案不仅可渲染逼真的静态面部细节，也可以合成多种自然表情变化。比如结合了由语义定义的控制选项，可独立控制/分割头像的注视点信息，以直接支持眼球追踪。

而静止面部集合结构和纹理，可用于调节通用先前模型的参数，并将这些参数输入到表情编码器，来渲染定制的头像。为了提升虚拟头像对动态面部表情的模拟效果，还需要结合对人脸表情变化的RGB扫描数据（正面表情）。然后利用通用先前模型，可生成全新的表情和全新的任意视角。

经过验证，利用手机捕捉并合成的3D头像，质量足够接近动捕工作室捕捉的数据。而与市面上其他的3D头像生成系统相比，Meta的方案的合成效果细节更佳。

研究人员还称，用手机扫描的过程平均需要3分半钟，可捕捉65种面部表情。不过，渲染/合成3D头像则需要在配备4个高端GPU的计算机上完成，整个过程需要6小时。如果这个任务交给VR头显，那么可能将需要云计算或PC VR等方式来获取额外的算力。

当然，该方案目前还存在需要优化的问题，比如只能捕捉和合成面部表情，还无法处理眼镜或长发等细节。

Meta在Codec Avatar上的科研进展让人兴奋，尽管如此VR虚拟化身/头像技术还有很长的路要走。目前，Meta Avatars还是采用基础的卡通艺术风格，随着时间推移，人们将不再满足于这种简易的头像。而在高保真远程3D通话、社交等场景，为了实现沉浸感、临场感体验，将需要更能代表每个人的形象系统。

参考：

https://s2022.siggraph.org/presentation/?id=papers_524&sess=sess107

（ END）

每天五分钟，轻松了解前沿科技。
—— 青亭网

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号青亭网 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术新媒体艺术科技艺术 3D人像建模 iPhone前摄

15496