我们离“数字人自由”还有多远？-数艺网

资讯: 展览资讯大型展会灯光节大型盛典赛事中标捷报产品快讯热门话题艺术节活动演出新闻数艺报道俱乐部签约

观点: 大咖专访观点洞察书籍推荐吐槽设计观点企业访谈问答趋势创新论文职场方法薪资报价数艺专访

幕后: 幕后故事团队访谈经验分享解密评测数艺访谈

干货: 设计方案策划方案素材资源教程文案资源 PPT下载入门宝典作品合集产品手册电子书项目对接

我们离“数字人自由”还有多远？: 2022-07-21

本文来源于：一刻商业，作者：晓阳

▲ 超写实虚拟人柳夜熙一夜爆红

作者 | 晓阳

编辑 | 周烨

早在2007年，日本公司Crypton Future Media推出的虚拟声优“初音未来”，便将虚拟人推向大众视野。遗憾的是，往后数年，数字人并没有在真正意义上迎来爆发。

但2021年以后，基于AI技术深度开发的AYAYI、度晓晓等应用场景更广泛的数字人的出现，展现了更自然逼真的体验，也向“真实”迈进了一大步。

在写作、手语翻译、直播等领域，数字人开始发挥作用。AI数字人挑战高考作文，得分排总考生的前25%；数字人主播小C，已连续两年报道两会并采访人大代表；AI手语主播，在今年冬奥会期间为数千万听障用户提供直播及赛事的手语服务；百度数字人希加加，甚至成为麦当劳的首位虚拟代言人。

▲ 希加加抖音账号、央视网

虚拟数字人正在快速走向大众，经历着大量的制作生成、不同场景的应用，展现出一幅“人”与人共生的未来图景。

2022年，这场有关“造人”的畅想、实验仍在进行。业内普遍认为，以洛天依为代表的“形象+语音合成”的数字人，为1.0阶段。2.0阶段，则是依靠“2D/3D模型+实时动作捕捉+声优配音”模式。

而如今进入的3.0阶段，将考验企业的AIGC（人工智能自动生成内容）能力。算法、程序是数字人的基因，但通过AI，它们能在面部表情、形体表达、语音表述上变得更加“真实”、“个性”。

近期，沙利文发布的《2022年中国数字人市场观测报告》（下称报告）显示，按综合竞争实力量化评估，小冰、百度、商汤三家位列第一梯队。从硬软件、AI能力平台到各产业的应用，各大厂商也开始试图打通数字与现实的入口。

但目前为止，企业以及个人还无法获得“数字人自由”。虚拟数字人距离真正意义上的爆发，还有一段路要走。

大多数字人仅能进行简单的决策，而无法达到完全智能化交互。同时，数字人的生产效率问题，导致难以满足企业的高频需求，数字人制造成本较高。

打造有“灵魂”的数字人，能听、能说、能理解、能互动，是企业、用户的诉求，但技术方面依然面临高难度挑战。

数字人为什么被需要?

数字人浪潮的兴起、爆发，一直是伴随需求而生。

千禧年后，CG合成的“初音未来”让虚拟偶像概念破土而出，愿意买单、参与创作的年轻人，制造了第一场围绕虚拟偶像的“吸金效应”。

回到当下，在社交媒体上，虚拟美妆主播、虚拟换装达人、虚拟演员等一夜爆红的案例数不胜数。Z世代的新消费趋势，驱动着数字人进入更多产业链条。

提及数字人，大多年轻人的第一反应也许是主打颜值的“演艺型”数字人。一位90后女生小蕾提到，她最早关注到虚拟人是在小红书上，关注时尚博主AYAYI后，她隔几天就会点进她的账号浏览最新的发帖内容，后来才发现这是虚拟人。但目前，AYAYI小红书的笔记点赞数已经从十万+骤降至几十，纯演艺型数字人如何打破“虚火”、“过气”的命运，也是各大数字人厂商面临的难题。

另一位90后男生周凡也提到，从小他就混二次元圈，从动画、游戏中的二次元人群到虚拟偶像，无论是颜值还是人设，都更能让他产生兴趣。真实的明星他丝毫不关心，却很愿意为“虚拟人老婆”花钱买单。

▲ 图源：小红书

主打颜值的演艺型数字人，常被塑造成网红并进行品牌代言活动。比如希加加便是一个演艺型数字人，在多个社交平台运营着个人IP账号，一边与蜘蛛侠、三体等超级IP合作，打造人气，一边与品牌在年轻化营销方面进行合作，此前希加加便成为麦当劳的首位虚拟推荐官，还与Qee熊、FE赛车合作画作并发布售卖。

可以看出，数字人扮演着为品牌开辟全新营销场景、与未来消费主力军沟通的角色。

但市场对数字人的期待不仅仅停留在“颜值”上，人们希望数字人承担的角色从演艺继续向服务型扩展，撑起更大的市场需求。

▲淘宝人生虚拟人物换装

在过往提到人“人”共存争议时，数字人替代人类的问题总被提及，但无论是前端的开发者还是投身其中的科技公司都一再强调，数字人的服务属性。百度智能云AI人机交互实验室负责人李士岩便曾提到，做数字人的初衷，并非为了替代人，而是为了“服务人和陪伴人”。

如何服务？取代部分基础性工作、提升效能，是当下能看到的答案。数字员工、智能客服已经被广泛应用到很多企业中，这帮助了企业降本增效、提升客户体验。

京东的数字人出现在618，在电商、社交、媒体等领域上岗就业；在直播带货领域，网易伏羲的24小时AI虚拟主播，可以填补真人主播无法出镜的空白时间；在新闻报道方面，度晓晓与《工人日报》合作，在两会期间应用“AI记者”播报、采访。

百度数字人度晓晓则属于典型的“服务型选手”。2022年百度世界大会即将在7月21日举行，在其预沟通会上也提到，百度智能云专门打造了一个数字人平台“曦灵”，基于此形成了一个“AI数字人家族”，包括虚拟偶像、数字人主播、数字人员工等，都在为企业品牌提供服务。

而今年的大会中，度晓晓还将迎接一个难度系数翻倍的新挑战。此前，在写作方面，度晓晓参与作答全国议论文，拿下48分高分；作画方面，其具备领先的跨模态理解和生成能力，可以根据个性化需求自动生成油画、水彩画、中国画等多种风格的图像，还能实现“看图说话”的效果；度晓晓甚至还能创作歌曲方面，其与龚俊数字人联合演唱的歌曲，从作词到编曲均由AI“操刀”。报告也提到，服务型数字人是百度的优势所在，产品类型丰富，从最早的企业服务场景已经延伸到营销、办公等领域。

这一切也让人们展望数字人在更多领域被全面唤醒。

实现“数字人自由”的技术难题

虚拟数字人呈现的爆发态势，是过去数年制作水平、软硬件技术等各方面的跨越式升级在催动。

尽管虚拟数字人不再停留在“纸片人”的阶段，向智能化、精细化、多样化方向发展，但还没有到达谈论“普及”、甚至大规模“复制”的阶段。

由此，在谈论虚拟数字人“服务和陪伴人”这件事之前，似乎需要先解答“数字人自由”的问题：数字人大规模普及，依然面临着技术发展的阻碍。

经历了长期的发展，如今到了数字人产业的3.0阶段，通过掌握语义智能解析(NLP)和语音在线合成(TTS)等AI技术，数字人将变得更加“聪明”。

AIGC将进一步在数字人领域渗透，将颠覆现有的内容生产模式，AI将成为打造数字人的基础硬实力。

AIGC的应用，说到底还是依赖于大模型等底层技术的创新。2022年百度数字大会的预沟通会也提到，希加加、度晓晓AI作画、AI写作文、AI作曲等，都是AIGC在内容生产提效的体验，而这背后，是百度飞桨及大模型的支持。

▲ 图源：文心大模型官网

AIGC如何让数字人成为一个更真实的“人”，首先要从“真实”的要素说起。主要可分为：身体的静动态（躯体、面部、口型），感知能力（看、听、说），认知能力（情感识别、知识理解），它们都被期待着摆脱“纸片人”的僵硬。

目前而言，部分数字人仅仅拥有单一能力，且单一能力也仅仅是“半吊子”水平。

以涉及听和说的“可交互”能力举例，被称作“人工智障”的数字人，无法完成多轮对话，更达不到“语言理解力”。当你说“不喜欢”时，它可能会回答，“我不明白你在说什么。”

但与度晓晓等更“真实”的数字人对话时，你会发现，跟她说你想看电影，她会给你推荐影片；你提到想喝咖啡，她就会跳转到咖啡外卖的小程序去下单。显然，度晓晓在对话中不仅能与用户闲聊，同时能识别用户说话的意图，来提供给用户搜索、推荐等，更好地为用户服务。

那么，这样流畅的对话是如何实现的？这需要依赖数个步骤：首先，预训练对话大模型，使数字人学习通用的对话生成能力。再进一步学习不同画像信息下的对话生成能力，使模型的答复更具“定制化”“一致性”。最后，将海量的问答知识内化到模型参数中，使得模型具备准确的问答能力。百度文心PLATO大模型，便具备接近真人水平的多轮对话能力。

简单来说，不断迭代大模型的能力，提高各项AI能力，而基于大模型生成的数字人也将拥有更高的“智商”“情商”。

不过，提高单一能力并非终点，数字人需要走向全能。随着虚拟人扮演的角色逐渐复杂，比如协助国家队训练的虚拟教练观君、负责万科内部财务催收的虚拟员工崔筱盼、百度的AI手语数字人等，内容生成、感知表达等都在逐步进化。

比如在直播场景中，百度的AI手语数字人，需要“听到”主播的话，并“理解”字句，再实时转换成手语“动作”，展示给观众看。显然，相比其他数字人，它进行着更高强度的“大脑”运转，完成着更复杂的工作。

这便要考验数字人背后的大模型的跨模态能力。从文字、声音到图像模态，AI需要让数字人做到“听说读写”样样俱全。AI驱动下，数字人将不断成长，拥有更多可能性。

技术越来越强，大量复制却依然艰难?

解决“数字人自由”，技术难题之外，生产效率问题也是讨论的主要问题——如何低成本且快速地生成数字人，去满足高频的需求。

当下，数字人还很难快速低成本生成。当企业希望借助数字人营销、服务用户时，面临着数字人的投入成本高、制作周期长、人设运营难、技术难度高等难题。

提供解决方案的服务平台，被认为是“数字人自由”的加速器。如百度、腾讯、网易伏羲等，都是平台型技术服务商。

通过服务平台，企业品牌借助批量生成功能，定制与业务方面吻合的数字人，同时，可以通过平台进行内容生产和运营，比如直播、制作短视频等，或是对数字人的“人设”进行包装。

过去两年，缩短生产周期——企业的这一核心需求，在不断被满足。

比如根据不同需求所需时间区分：在百度智能云曦灵平台上，较为简单的2D数字人像，以前需要两三个月时间做出来的3D数字人，现在可以压缩到小时级；困难度最高、成本最高的特异型数字人（有具体的参照形象要求），也可在10到30天内生成。

另外，不同类型的数字人的制作成本都很高昂，企业品牌既要避免数字人同质化竞争，又要低成本，实属艰难。

越来越多的企业也在通过AI技术释放生产力、降低成本。比如在人像制作上，扫描真人、捏脸是常规手段，但生产周期长至3个月，成本高至上百万。而各个平台也在试图寻找降低成本的方法。如百度的技术团队，通过积累人像数据，利用数据训练AI生成模型，最终通过AI模型快速打造各种需求的人像，大幅降低成本。

百度让数字人制作成本十倍、百倍地下降，使数字人生产周期，从动辄几个月，缩短到小时级别。2022年百度世界大会的预沟通会提到这一数据。

可以预见，未来数年，更多企业会加入应用数字人的队伍，数字人的商业价值将在更多领域发挥，数字人帮助品牌代言、与用户沟通互动等，都会变得普遍起来，而不止企业，甚至个人也能拥有属于自己的数字人。

作为国内AI领先企业，百度多年积累的AI能力，成为它在数字人产业实力领先的基础。此前互联网周刊发布的《2021虚拟数字人企业排名TOP50》榜单中，百度因为语音、视觉等AI能力的积累，在数字人综合实力方面排名第一。百度等服务平台的下场也助推了数字人产业的发展。

数字人变得更加“真实”，服务于更多产业，得益于百度等厂商对AI能力的投入、培育，并将解决方案提供给更多有需求的企业，将数字人产业从0推向1，再走向虚实融生。

阅读原文 * 文章为作者独立观点，不代表数艺网立场转载须知: 本文内容由数艺网收录采集自微信公众号数艺网 ，并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源：数艺网” 并附上本页链接：如您不希望被数艺网所收录，感觉到侵犯到了您的权益，请及时告知数艺网，我们表示诚挚的歉意，并及时处理或删除。

数字媒体艺术新媒体艺术科技艺术数字人 AI技术

14345