Meta利用视觉信息来优化3D音频模型，未来将用于AR/VR-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

Meta利用视觉信息来优化3D音频模型，未来将用于AR/VR: 原创 2023-02-27

Esther | 编辑

我们知道，Meta为了给AR眼镜打造智能助手，专门开发了第一人称视觉模型和数据集。与此同时，该公司也在探索一种将视觉和语音融合的AI感知方案。相比于单纯的语音助手，同时结合视觉和声音数据来感知环境，可进一步增强智能助手的能力，比如模拟人类感知世界的方式，来理解声音在空间的传播方式。

Meta表示：在元宇宙社交、AR观影等多种场景中，声音都扮演了重要的角色。为了满足沉浸式AR/VR场景的需求，Meta决定采用AI来实现高保真的音质，并与沉浸的空间逼真匹配。

为此，Meta AI科研人员和Reality Labs音频专家、德克萨斯大学奥斯汀分校科研人员合作，开发了三个专为AR/VR打造的声音合成AI模型：Visual Acoustic Matching Model（视听匹配模型）、Visually-Informed Dereverberation（基于视觉信息的抗混响模型）、VisualVoice（利用视听提示将对话和背景音区分）。它们特点是可对视频中人类对话和声音进行视听理解，并与3D空间定位进行匹配，实现沉浸的空间音频效果。

简单来讲，这种AI模型根据外观和声音来理解物理环境。我们知道，声音在不同的物理空间中听起来也会有不同，比如在山洞里你会听到自己说话的回声，而在音乐厅和客厅两种不同规模的空间中，声音传播效果也不相同。这是因为，声音传播路径受到空间结构、材料和表面纹理、距离等因素影响，因此听起来会有所不同。

一，Visual Acoustic Matching Model，视听匹配模型

在这个模型中输入在任何场景录制的音频片段，以及一张目标场景的图像，便可以将录音片段与目标场景融合，音频听起来就像是在目标场景中录制的那样。比如，可以将洞穴中录制的音频与餐厅图像融合，输出的语音听起来就会像在餐厅中录制的那样。

通常在看一段视频时，如果视频的声音和视觉不匹配（不符合传统认知），会造成不自然的体验，人可以轻易发现这种差异，并认为视频声音为后期配音。

利用声音模型，科研人员可模拟声音在房间中传播产生的脉冲，来重现空间的声学效果。但这种方式需要结合空间3D网格，来测定空间的几何结构、材料属性。在大多数情况下，这些信息并不是已知的，因此声学模型难以实现。

科研人员指出，也可以根据在特定空间中捕捉的音频，通过声音在目标空间中产生的混响，来预测声学特性，但缺点是智能获得有限的声音信息，因此模拟效果通常不够好。

为了解决上述问题，Meta科研人员创建了一个名为AViTAR的自监督视听匹配模型，特点是可通过调整音频，来与目标图像中的空间匹配。AViTAR是一个交叉感知模式转化模型，它可以通过复合模式推理，将输入的视听数据转化成视觉和听觉匹配的高保真数据。此外，AViTAR模型可利用任意网络视频，来进行自我监督训练，练习匹配声音和图像。

Meta为AViTAR创建了两个数据集，其中一个建立在开源AI视听平台SoundSpaces基础上，另一个数据集包含了29万个公开可用的英语对话视频（3到10秒片段）。据悉，SoundSpaces是Meta在2020年开源的AI平台，其特点是建立在虚拟仿真平台AI Habitat之上，可模拟高保真、逼真的声源，并插入到Replica、Matterport3D等开源的真实场景扫描环境中。

这两个数据集主要包含了室内场景中的对话，目的是为了探索未来AI语音和视觉助手在室内的应用场景。细节方案，数据集中的视频拍摄也有要求，麦克风和摄像头在同一个位置，并且远离声源。

为了训练AI模型识别声音和场景不匹配，Meta科研人员还制作了一系列音画不匹配的随机合成视频，并加入噪声。

利用这些数据，科研人员验证了视听匹配模型的效果，结果发现该模型可成功将对话与目标图像场景融合，效果比传统的纯音频声学匹配方案更好。

二，Visually-Informed Dereverberation，基于视觉信息的抗混响模型

和上一个模型相反，Visually-Informed Dereverberation（VIDA）专注于消除混响，比如去除声音在洞穴中传播产生的回声。该模型根据视听提示，来优化、筛选音频中的混响。在热闹的火车站场景中，该模型可以提取小提琴演奏的声音，并去除小提琴声与火车站场景交互而产生的回响，好处是可以让小提琴声音听起来更纯粹。

在AR场景重现时，更沉浸、纯粹的声音可以让第一人称观看体验更加保真。

我们知道，回声指的是声源发出声波并到达场景中各表面后反射的现象。将回声、环境音、原声等声音混合并依次进入人耳的过程，则被视为混响。混响、回声通常会降低音频质量，降低人耳感知和分辨声音的能力。比如当你在大课堂给老师录音时，通常也会将同学产生的噪音收录进去。这种混响也会影响语音识别的准确性。

去除混响后，便可以增强声音的重点，帮助自然语言模型更好的识别对话，并生成更准确的字幕。

此前，人们通常直接处理音频来消除混响，但这并没有考虑到环境的完整声学特性。为了提升消混响的效果、更自然增强音频，Meta科研人员提出了搭配视觉分析的方案：VIDA，也就是说利用视觉数据来辅助混响消除。

VIDA模型基于视听数据来训练，可通过识别空间结构、材质和扬声器等线索，来消除混响。

三，VisualVoice，利用视听提示将对话和背景音区分

VisualVoice模型利用视听提示，来区分对话和背景音，其好处是可以帮助人和AI更好的听清对话，从而提升多人VR社交的沟通效率、实时字幕效果等等。

Meta设想了一个未来场景，即人们通过AR眼镜以第一人称视角，重温沉浸的全息回忆，并获得保真的视觉和声音体验。或是在VR游戏中，空间音频可进一步增强沉浸感。

这个模型同时通过视听数据来分析对话，Meta认为，这项技术是改善人机感知的重要因素。

Meta指出，在复杂环境中，人类可以比AI更好的理解对话，这是因为人不止会用耳朵听，也会用眼睛辅助。举个例子，当你周围有人说话时，你可以用耳朵听到他的声音和声音来源，同时也可以用眼睛来定位这个说话人的具体位置。

因此，Meta AI决定开发一个同时模拟视觉和听觉感知的多模式对话模型，帮助AI更好的分析视觉和语音之间的细微关联。即使使用未标记的视频，也能训练VisualVoice模型提取对话中的视听信息。

未来应用场景

Meta表示：利用这些智能的AI语音分割模型，未来虚拟助手可以随时随地听到你的指令，不管是在音乐会、热闹的聚会还是其他环境音量大的场景。

接下来，若想要为AR/VR构建更加沉浸的体验，将需要这种多模式的AI模型，才能模拟人类感知的方式，通过音频、视频、文本等信号来更好的理解周围环境。

为了继续优化AViTAR、VITA等模型，Meta未来将使用视频来训练AI捕捉空间声学特性。

参考：

https://ai.facebook.com/blog/ai-driven-acoustic-synthesis-for-augmented-and-virtual-reality-experiences/

（ END）

每天五分钟，轻松了解前沿科技。
—— 青亭网

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号青亭网 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术科技艺术 3D音频模型 AR/VR

12126