索尼数字人研究：画质超逼真，面部表情与身体动作保持协调-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

索尼数字人研究：画质超逼真，面部表情与身体动作保持协调: 原创 2023-01-10

Esther | 编辑

近年来，3D动捕、数字虚拟人等技术受到越来越多关注，它不仅可以应用于电影场景，游戏、社交等领域也开始采用。相比于过去高成本、高门槛的全身动捕技术，现在制作基于动捕的虚拟人越来越容易，不需要过高的成本或是专业技术知识，一些简易、自动化的动捕方案就足够普通创作者使用。

近期，索尼也公布了一项基于机器学习的3D虚拟人和动捕方案，该方案可逼真模拟人类面部表情和行为的3D建模技术，通过忠实重现人类特征，来推动虚拟社交。

索尼指出，数字人是基于真人特征的3D模型，它在虚拟场景中可模拟人的自然外观和行为。近年来，越来越多的企业开始接触数字人技术，并将它用于广告、客服、游戏等场景。当然，并不是所有数字人都能完全还原人的特征，它们的还原程度取决于用途，比如在CG电影中，对于数字人的逼真度会要求更高。索尼认为，随着CG渲染技术不断提升，虚拟化身的质量越来越好，因此恐怖谷问题正在得到解决。

索尼的目标，是开发一种仿佛真实存在的数字人，这种数字人具有存在感，让人感觉它仿佛就在身边。换句话说，就是利用数字技术来复制真人。结合AI算法后，它可以和真人互动，甚至和真人难以区分。其研发重点是突出数字人的个性表达，比如重现人脸皱纹和表情的特征变化，抓住人独一无二的特点。从自然交互的角度来看，索尼也注重数字人的眼神与用户的互动，数字人不会盯着用户，而是模仿人眼和头部自然动作。

数字人核心技术

构成数字人的核心技术包括：面部动捕、面部肌肉模拟、面部肌肉动作和身体协调性。基于人脸绑定的面部动画也需要这些步骤，模拟人脸表情变化是一个复杂的过程，要想忠实重现、绑定人脸面部动作，需要高端的面部动捕技术。而且，复杂的面部动捕难以控制，在制作动画时将需要高超的技术。为了简化基于动捕的人脸表情模拟过程，索尼研发了一种更加智能的工作流程，特点是无需传统的面部绑定方案，并降低了制作动画的工作量。

据了解，面部动捕技术可准确追踪表演者脸部各部分运动，并驱动CG模型去模拟这种运动。捕捉面部变形数据需要详细的三位信息，才能准确呈现肌肉伸展、收缩，以及由此产生的皱纹等细微运动。

而索尼的方案，简单来讲就是用动捕技术捕捉真人演员的表情，并根据捕捉到的数据生成人脸CG模型，以及面部动态变形效果。此外，还分析了各种面部表情模式，并提取了重现这些表情需要运动的面部区域。这些区域大约有100个，包括眼睛和嘴唇轮廓部位，在捕捉这些区域的3D信息后，索尼对它们的位置进行了标记。

在捕捉人脸3D信息时，索尼使用了多台同步的摄像机从多角度拍摄，并推算3D运动信息。不过，部分面部表情变化可能会导致标记检测失败或遮挡，因此该系统还利用光流，以及不同的摄像头角度来提升信息获取的稳定性。

接下来，索尼使用真人表演视频作为训练数据，培训了可精准检测眼睛、嘴唇运动的系统。索尼指出，每一帧动捕的准确性都决定了下一帧的准确性，因此该系统还需要不断完善，提高整体水平。

头戴式摄像头（HMC）

索尼开始使用头戴式摄像头（HMC）来拍摄演员的面部表情，相比于传统的固定机位拍摄，HMC的好处是可以追随演员，演员无需寻找摄像头，可以更加自由、灵活的运动。索尼表示：捕捉到自然运动的人体姿态后，才能渲染出完整的数字人，因此HMC是捕捉自然运动数据不可缺少的工具。

不过，演员可戴在头上的HMC摄像头数量有限，面部捕捉的角度、覆盖面积比固定机位更少。因此，准确捕捉3D面部数据、识别3D标记则尤为重要。为了训练良好的3D预测算法，索尼使用固定机位和HMC预先捕捉人脸数据，其中包括面部表情、3D标记等等。算法通过这些数据去学习表情和面部运动之间的相关性，后续只需要HMC的数据就可预测3D面部运动，准确性足够接近传统的固定机位方案。

模拟面部变形

在捕捉人脸3D标记信息后，索尼的动捕系统根据眼睑、嘴唇轮廓信息来模拟面部变形，并动态渲染在3D模型上。渲染面部肌肉动作的流程是：根据几何函数模拟面部表情、用机器学习模型将面部表情个性化、细节微调、叠加纹理。首先第一步，3D面部动作、眼睑轮廓需要准确定位，才能确保后续面部变形合理。因此，索尼设定了一个具有几何约束的能量函数，可根据3D面部数据来调整面部模型的整体形态。

另外，由于人脸表情变化引起的皮肤拉伸、收缩、皱纹和肌肉隆起程度因人而异，因此索尼利用十几种面部表情模式来训练个性化的机器学习模型，这些模型可根据人脸特征，来将3D面部表情个性化，重现用户的个人特征。

细节方面，该机器学习模型将人脸区域的伸长、收缩程度作为特征值，并根据几何变形模型与真实值之间的差距回归，从而输出具有个人特征的面部变形。

面部变形的最后一步，就是引入眼睑、嘴唇、口腔形状变形算法，对面部模型进行额外处理。这一步是为了纠正面部变形可能产生的误差，确保眼睑覆盖眼球（避免眼球和眼睑出现间隙，或眼球穿模眼皮）、自然的口腔形状变化等特征。在眼睑处理部分，该算法重点是避免眼睑接触眼球，而嘴唇处理部分，则侧重于几何约束，确保面部捕捉到的嘴唇轮廓与3D模型的嘴唇形状匹配。

面部和身体集成

完成3D面部动作模拟后，下一步便是将面部与身体姿态集成，并协调面部表情和身体动作。如果面部和身体分开运动，会显得不自然，因此索尼开发了面部和身体一体化算法，可模拟全身自然运动。

索尼指出，目前市面上的动捕方案主要用于模拟人体模型的运动和变形，人体3D信息通过光学方案捕捉，并且在颈部、腿部、手臂等处添加标记来定位骨骼姿态，生成人体网格，从而模拟人体形状。相比之下，索尼的方案侧重于模拟颈部形状，颈部的动作会同时受到面部和身体运动影响，比如颈骨运动决定面部方向，下颌运动决定嘴巴运动。

于是，索尼构建了一个全身姿态模拟系统，将HMC数据和身体动作捕捉同步，并根据这些数据来预测颈部形状。据悉，索尼预先创建了结合多种嘴型、面部方位的大量训练数据，并从中提取了潜在的颈部形状。在实际预测中，颈部模型组合了多种数据，包括下颌运动、颈部方向。

索尼表示：该颈部模拟模型可重现自然的面部和身体动作，目前训练改模型需要大量训练数据，后续将想办法减少对数据的依赖。

索尼的数字人模拟方案实现了自动化的人脸表情模拟，这大大减少了前期创作工作，允许创作者交付更高质量产品。更重要的是，该方案可根据不同人的特征去模拟运动，好处是看起来非常自然。索尼表示：随着3D虚拟技术发展，数字人将会被更多人所熟知，轻松创建Avatar的需求将逐步增加。未来，希望可以将这项几乎应用于消费级市场，比如电影、游戏等领域。

参考：

https://www.sony.com/en/SonyInfo/research/technologies/digital_human/

（ END）

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号青亭网 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术新媒体艺术索尼数字人

15924