—— 青亭网
- 0
- 0
- 0
分享
- 为全身Avatar而生,Facebook研发灵活的6D姿态电磁追踪方案
-
原创 2021-10-28
Esther|编辑
为了让你在VR中身临其境体验社交,Facebook等公司正在从多方面提升VR社交体验,比如开发大规模社交平台,或是研发逼真、写实的VR头像系统。目前,大多数VR头像系统只能手动设定特征,并不能100%代表使用者本人的形象,而为了解决这一问题,Facebook Reality Labs曾研发基于容积摄影技术的逼真3D头像Codec Avatar。
前不久,Facebook Reality Labs将Codec Avatar的研究延伸至全身,不只是可以渲染逼真的面部表情,也能还原你身体的3D模型,以及3D姿态变化。尽管如此,要想动态渲染用户的全身动作,这项技术还需要与准确的姿态捕捉方案结合。
不过,现有的VR头显还不能追踪全身,仅追踪双手就已经难以识别遮挡。在加入额外的嘴唇追踪器和眼球追踪模组后,仅能识别全脸表情。而市面上常见的全身动捕设备,更常用于电影拍摄,对成本、追踪范围的要求比较高。相比之下,市面上的一些C端姿态定位器则包括Vive Tracker、Tundra Tracker等等,其方案基于光学定位,原理类似于手柄,需要使用SteamVR基站。而外置的摄像头,则容易限制你在VR中活动的空间,受可追踪范围限制。
不管是基于摄像头,还是基于红外光的姿态识别方案,均存在一些局限。比如:基于RGB摄像头的全身姿态预测方案通常效果不够稳定,除了可追踪范围有限外,也难以识别被遮挡的动作。而红外基站则限制了可追踪的范围,使用者不可以走出基站固定的追踪区域。
为了解决这一问题,Facebook与瑞士联邦理工大学科研人员合作,研发了一种基于无线电磁传感器的姿态识别方案EM-POSE,其特点是不受视觉遮挡限制,没有固定的追踪区域,可预测6D姿态并实时重建3D人体姿态和模型。这里6D指的是6个自由度,包含了三个自由度的平移,以及另外三个自由度的空间旋转,它们合起来就被成为6D姿态。这是一个相对的概念,主要表示两个坐标系之间的平移和旋转变化。
科研人员表示:AR/VR是一个有潜力的计算平台,应用场景将包括娱乐、社交、医疗、远程应用等等。而对于沉浸的AR/VR体验来讲,准确重建使用者的全身姿态是一个关键要素。近年来,基于低成本摄像头的姿态识别技术得到长足发展,不过依然存在许多局限。
相比之下,EM-POSE采用可生成电磁场的发射源,接着传感器根据电磁信号来识别发射源的位置和方向。科研人员将发射源放在使用者后腰,并在身体其他部分放置6到12个定制的无线电磁传感器,以实现全身姿态识别。这样就可以自由移动,不受基站所在位置限制。
细节方面,电磁传感器的追踪范围为使用者周围0.3到1米之间,因此可以在全身布局12个传感器,手臂和腿部各2个,脖子2个,头部和背部各1个。而研究的关键是,科研人员通过电磁传感器识别到的数据,预测出对应的SMPL姿态模型和外形参数。SMPL是一种人体三维模型,其特点是包含骨骼蒙皮和纹理,基于定点,可准确表示人体自然姿态。
为了验证方案效果,科研人员在实验中安排了一组Azure深度传感器方案,来进行对比和优化。接着,还采用OptiTrack动捕设备来校正传感器的坐标。实验共记录37分钟的数据,参与者包括三名女性和两名男性,动作包括摆动手臂、开合跳、走路等等。
实验发现,EM-POSE可准确重建弓步、下蹲等容易产生遮挡的复杂下半身运动,同时也可以忠实还原交叉手臂的动作。此外,开合跳、走路等动态动作也可以准确呈现。12颗传感器的方案误差最多仅31.8毫米、13.3°,而6颗传感器的方案,误差可控制在35.4毫米、14.9°以下。
实际上,基于电磁传感的定位方案已经不是新鲜技术,上世纪60年代的时候,就已经在军事领域得到应用。而且,目前市面上也已经有许多基于电磁传感的定位系统,它们具备不同的追踪范围、采样率/刷新率、硬件外观等特征。
而对于C端VR场景,科研人员认为现有技术还无法满足需求,因为传感器体积过大,或是需要连接线,限制用户移动。除此之外,姿态传感器还需要足够方便穿脱,可长时间佩戴,才能更吸引C端消费者。相比之下,EM-POSE支持无线传感,而且通过优化,还有望将传感器从12颗降低至6颗。据悉,为了用最少的传感器来完成全身姿态追踪,该团队研发了一个两部分解决方案,第一步是根据培训数据来推测姿态,接着再用算法来优化准确性。
在训练姿态学习算法过程中,科研人员也遇到了一些难题,比如:1,电磁传感的准确性会根据距离加长而降低,因此不同姿态的追踪准确性也不同;2,如何减少传感器,避免在使用者身上穿戴过多设备,因此需要通过算法来推断无法追踪到的关节运动;3,预测传感器和皮肤之间的距离,可稳定计算误差。
另外,6个传感器的姿态识别方案缺少约束;电磁传感的准确性受距离影响,因此对不同姿态的识别准确性也有差异;识别皮肤与传感器之间细微距离的准确性要高,以避免传感器滑动产生误差。
为了优化算法,科研人员采用了学习式迭代拟合法中的LGD框架来训练。基于LGD框架训练的算法准确性更高,而且速度比纯优化的模型要快几个数量级。采用LGD学习框架,通过神经网络来学习梯度的动态变化,以加速姿态预测的过程。
总之,EM-POSE方案将电磁基站和传感器固定在VR用户身上,因此如果配合Quest等一体机使用时,应用场景将更灵活,不管是玩游戏还是社交,你不会再受到空间或连接线限制,而这也是未来C端应用的需求之一。
参考:
https://eth-ait.medium.com/em-pose-3d-human-pose-estimation-from-sparse-electromagnetic-trackers-f4ba1465e3a
( END)
—— 青亭网
-
阅读原文
* 文章为作者独立观点,不代表数艺网立场转载须知
- 本文内容由数艺网收录采集自微信公众号青亭网 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。