被Google收购的初创“AI虚拟形象”公司Alter：3D虚拟化身是未来在线社交的重要趋势，仍有技术和工具化机会

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

被Google收购的初创“AI虚拟形象”公司Alter：3D虚拟化身是未来在线社交的重要趋势，仍有技术和工具化机会｜「文娱科技」: 2023-01-03

文娱科技，

上期“AI虚拟偶像在ZEPETO“成团”（见文末）

关注文化娱乐科技的产品化与场景应用

欢迎投稿与交流，联系请见文末

伴随3D虚拟社交、元宇宙相关平台的发展，虚拟化身技术正逐渐在多个在线娱乐与社交平台上应用落地，成为升级用户体验、迭代社交模式的重要手段。

去年下半年近年末，Google宣布完成对初创AI虚拟形象公司Alter的收购，此后其开发团队也将加入Google。有消息称收购价格约1亿美元。

Alter是一家成立于2017年的AI科技初创公司，至今已经与推出过虚拟化身社交APP Facemoji和开源免费的技术集成——Facemoji 和Mocap4face两项SDK。其中Mocap4face发布于2021年，是一项即插即用的技术集成，不仅为该公司的其他产品提供支持，同时也服务于Reality、VTube Studio等应用开发。

目前，该项技术主要应用于虚拟化身的驱动。其借助AI技术与FACS编码系统，能够基于RGB摄像头采集的视频或图片信息，在虚拟形象与真人之间同步表情变化。相比其他表情捕捉技术具有使用便捷、对于运行设备要求较低等优点。

Google并未透露此次收购Alter的原因。不过，今年下半年以来，TikTok、Meta等公司都对虚拟化身领域有所关注和布局。如今年6月Tiktok推出了虚拟化身系统“Tiktok Avatar”，10月Meta表示将在其虚拟化身的一项SDK中加入“自然面部表情”功能。

因此，也有市场观点认为Google此举是为了应对与TikTok的竞争。Google在去年推出YouTube Shorts短视频功能，今年6月该平台已有15亿月活跃用户。

Google收购Alter，

后者专注AI虚拟化身技术研发

Alter前身为Facemoji，是一家聚焦于虚拟形象领域的AI科技公司。两位创始人Jonathan Slimak、Robin Raszka此前都有过互动产品的设计经验。公司旨在“通过提供开发工具，让品牌业者和创作者能够以虚拟形象对外产生互动”。

Mocap4face是Alter的关键技术，自2021年发布起，不仅支持该公司推出的Facemoji、Alter SDK等产品，也为Reality.Inc等其他公司提供过服务。

mop4face SDK产品

在AI算法的支持下，Mocap4face能够对RGB相机采集的图像或视频中的人脸表情进行特征抽象，根据其变化实时生成能够应用于虚拟形象的blendshape系数，实现虚拟化身的面部表情随动。

公司CEO Robin Raszka表示：“在线沟通的未来在于虚拟化身，但这项技术的发展没有跟上时代。如果开发者要从头开始构建下一代数字空间，在提供外观精美的3D内容的同时优化用户体验，那样成本高、速度慢且困难。我们正在改变这一点，并为下一代开发者和创作者开辟新的可能性。”

2021年，Alter前身Facemoji凭借在虚拟化身领域的探索与取得的技术成果，获得了300万美元的投资。该轮融资由风投公司Play Ventures领投，Twitter、Roosh Ventures等公司参投。Facemoji表示资金将用于扩大公司在业界的伙伴关系，以及进一步的研究和开发。

Play Ventures副总裁Phylicia Koh表示：“Facemoji 团队是虚拟化身技术的领导者，Play Ventures 很高兴能够为他们提供支持。我们认为Facemoji将成为元宇宙经济中的强大参与者，帮助改变开发者、创作者和用户的创作、游戏和交易方式。”

此次收购之前，Google在AI表情识别方面也已有技术积累和实际应用经验。比如今年早些时候，Google就在通信软件Allo中试水了一项新功能，可通过AI识别照片当中人物的表情与外貌特征，生成相应的表情包。Google提供的数据显示，该工具能够生成超过500万亿个不同面孔，为用户提供“量身定制”的emoji。

对于收购Alter的意图何在，Google方面并未作出说明。不过可以看到，其他在线娱乐与社交平台和公司，对虚拟化身领域也有较多关注和布局。

早在2020年，Snapchat就推出Bitmoji等。Bitmoji提供可定制外观的卡通形象，用户可将其与自己的账号绑定。不过该平台并不支持使用者和虚拟化身之间的动作同步。

到今年6月，Tiktok推出虚拟化身系统“Tiktok Avatar”。用户可以通过这一功能定制他们的头像，并且经由手机摄像头进行面捕，驱动他们的虚拟化身作出各种表情。

tiktok的avatar产品

今年10月，Meta也宣称将在自己关于虚拟化身的一项SDK中加入“自然面部表情”功能——那些持有Meta Quest Pro的用户可以将自己的表情同步到虚拟化身上。

同时，AI技术具有耐劳时间长，存储空间大，计算速度快等优势，有比较广阔的应用场景，与Google自身业务结合后，有助于进一步优化为用户提供的服务。

根据在Linkedin平台发布的动态，Alter团队中原先负责AI开发的Pawel Andruszkiewicz并未从事专门的虚拟化身开发工作，而是进入了Youtube Team担任高级软件工程师一职。而在Youtube的运作过程中，从实时渲染的快速特效系统，到自动删除违规内容和视频推荐等功能，也都有着AI技术的参与。

Mocap4face：利用CNN算法及FACS编码系统，只需手机摄像头即可实现表情捕捉

在Mocap4face SDK的支持下，仅需一台RGB相机即可实现面部表情捕捉与虚拟化身的表情随动。

目前在表情捕捉领域比较主流的结构光法和相机阵列法，前者需要专门的光学镜头、感光设备，后者则需多台相机同时拍摄，以获得关于人脸的深度信息。相比下来，Mocap4face的表情捕捉只需用户打开手机摄像头即可实现，在成本和操作上都更加“亲民”。

上述技术特色的背后，是CNN算法和FACS编码系统支持下的人脸表情捕捉技术。

CNN，即卷积神经网络，是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。其最基本的组成部分有三：卷积层、池化层、全连接层。

三者当中，卷积层对输入的局部提取特征，并利用权值共享机制来减少权值参数数量；池化层对提取的特征向量进行降维操作，加快处理速度；全连接层在整个网络中起到分类器的作用，利用回归或分类处理，将前面提取的抽象特征映射到样本标记空间。

借助CNN算法，开发者能够建立起深度学习模型，对采集的人脸表情数据进行有效的识别与特征提取。

在训练阶段，通过输入大量的样本数据，给模型送入人脸特征、表情等数据，进行矫正和增强后训练得到 AI 表情模型；在应用阶段，训练好的AI能够解析输入的图像或视频，提取表情特征。

在提取表情特征这一步，Mocap4face采用的是一个基于CNN的经典表情提取算法——将人脸图像/序列送入CNN网络后根据FACS进行特征抽象。所谓FACS即Facial AQction Coding System，是一套编码系统，其将人脸划分为不同的运动单元（AU），AU之间的不同组合形成了面部表情的可视变化。

在该方案中，AI首先将人脸信息数字化进行识别，再通过放射旋转缩放等几何变换实现特征点对齐，标注五官及其轮廓，定位人脸关键肌肉点。这些关键点位置（相对位置、绝对位置、距离和角度）的改变就意味着面部表情的变化。

在此基础上，AI将数字化的表情信息转变成为可判别的特征向量，再将这些向量送入驱动渲染模块解析，生成对应模型面部表情的实时blendshape系数，进而驱动虚拟形象。

FACS对人脸主要运动单元（AU）的编码

该项技术能够较好地应对以下两个问题:

首先是如何在保存图片特征的同时实现大数据量的图片降维：图像是由像素构成的，每个像素又是颜色构成的，因此就需要用RGB三个参数来表示该像素上的颜色信息。这就意味着，如果处理一张500x500像素的图片，我们就需要处理500x500x3=750000个参数。而CNN的卷积层能够通过降维，在保留图像特征的同时减少其需要处理的参数，从而更大程度提高数据处理效率。

其次是基于RGB摄像头（即普通手机镜头这样的2D摄像头）采集的信息，通过推理还原头部的3D动态：RGB摄像头本身是平面镜头，采集不到3D信息。但有了CNN算法的支持，它能够根据摄像头捕捉到的2D图像，估计图像当中每个位点到镜头之间的距离，在掌握这些信息后，推测出三维的空间关系，虚拟化身也就得以实现更加精确的头部运动。

主要应用：驱动虚拟化身，使用便捷、设备性能要求低

这项技术目前主要的应用领域是驱动虚拟化身，其优势主要有以下两点：

第一点是使用便捷、新手友好。

对于开发者而言，Mocap4face支持多系统、多平台，在苹果安卓和web端均可使用，同时该技术的一个亮点就是“即插即用”性。根据GitHub上官方发布的使用说明，用户只需在Facemoji官网创建开发账户、生成唯一的api秘钥，将其插入到自己的游戏/应用程式源代码中即可将面部识别功能整合进来，无需为此编写其他代码，有助于节省人工和时间成本，提升开发效率。

Facemoji app

对于用户而言，相比于3D摄像机动捕或者光学动捕这样本身就能够取得三维深度数据的手段，alter提供的方案需要基于摄像头采集到的二维数据通过AI进行推理，以衍生出相应的三维动作，这种方式可能显得繁琐，并且AI的计算推理也并非万无一失，导致最终呈现出的动作有时会发生错误。

不过，这种方式只需一台RGB相机即可驱动虚拟形象，无需外置设备，相比之下仍然属于低成本高效率的一种解决方案。

第二是其本身比较“轻量”，对设备性能要求低，也能提供较好的呈现效果。

Mocap4face这项技术在对视频进行处理时，经过CNN算法的卷积降维，每一帧图像当中需要处理的数据量被大大压缩了。同时其处理数据时采用的FACS编码方式，在对人脸进行检测时会更加关注眉毛、嘴巴等比较能体现表情的特定区域发生的变化，对鼻子等一般变化不大的区域关注较少，从而减少所需进行的运算量，在提升效率的同时减轻对CPU/GPU造成的负担。也是因此，该技术对设备要求不高，iphoneX及以上机型即可实现60帧输出。

Mocap4face因其优秀性能也受到了业界青睐。今年2月，服务于虚拟主播的面捕软件VTube Studio在1.16.0版本更新中就表示，将放弃Google推出的ARcore，改用Mocap4face作为动作追踪器，并在该项技术的支持下引入了两项新功能——MouthX Tracking和Tougue Tracking，提供努嘴、吐舌等表情动作，使这些虚拟形象能够更加生动地呈现出来。

VTube Studio 1.16.0的版本更新说明

不过这项技术也并非完美，在识别精确性上仍有可提升的空间。

首先，其运作方式是由AI计算机镜头采集的二维平面数据来推理三维动态。相比于能够直接采集到3D空间信息的外接设备，AI的推理在这个由二维到三维的过程中并非万无一失，中途有可能发生错误，导致对动作的错误识别；同时其依据的FACS编码系统为了提高效率，在判断人脸表情时所依据的AU基本都是只发生在人脸的某些特定的小区域内，带来丢失信息的风险。

也是由于识别准确度上的不稳定，其目前主要的应用场景主要集中在驱动虚拟化身这样的娱乐领域。不过随着近年来人工智能技术的不断进步，该项技术的识别精确性有望获得改善，其应用场景也有望扩大到更多领域。

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号东西文娱 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术新媒体艺术科技艺术 AI虚拟形象

22479