比如以下五张图,你能看出哪一张不是用AI生成的吗?可能不少人会觉得惊讶,两年前AI只能画一些难以辨认的模糊图片,如今,一个没有绘画基础的人用AI输入几个关键词,等待几十秒就可以生成比较精细的作品了,如果再多加练习,部分作品甚至能达到商用的水准。从今年2月Disco Diffusion面世,4月MidJourney上线、DALL-E 2内测, 到5月和6月Google推出Imagen和Parti,再到7月Stable Diffusion内测、开源,各种AI绘画技术迅速更迭升级,有画师感慨几乎是“一天一个样”。这股浪潮也从国外刮到国内,百度等互联网大厂以及一大批艺术、人工智能从业者和爱好者纷纷投入AI绘画的新领域。代表平台有文心一格、6pen、Tiamat等等。与此同时,有关AI绘画的争议和论战越发激烈。近期出圈的一个事件是AI画作《太空歌剧院》在美国科罗拉多州博览会美术比赛中获得“数字艺术/数字修饰照片”类别的最高奖项,结果受到画师们的质疑和抵制。对于内容创作者来说,当下要如何理解AI绘画?又有哪些应用场景和亟待探索的问题呢?我们和多位创作者聊了聊,并结合各平台的案例来分析。文章分为三部分:第一部分是对AI绘画的基本原理和发展历史的简单科普,第二部分列举了一些AI绘画的具体应用案例,第三部分是探讨目前AI绘画存在的争议和问题,希望对感兴趣的朋友有所帮助,欢迎友好交流。 01
AI绘画是素材拼贴?
首先,我们在这里讨论的AI绘画主要是通过文本生成图像的计算机程序,即“文生图”(text2image)。比如这张图是在DALL·E 2上由文字“Teddy bears working on new AI research on the moon in the 1980s”(1980年代在月球上研究AI的泰迪熊)生成的。稍微修改一下描述,把地点换成水下“underwater with 1990s technology”就能得到以下图片:可以看到,AI绘画并不是对现有素材进行简单的“缝合拼贴”,而是根据文字描述创建新的图像,一定程度上做到了“举一反三”,可以帮助人类画出各种奇思妙想,这背后是大量而复杂的深度学习训练。让我们从AI绘画的技术发展史来初步认识一下文生图的基本原理。AI绘画发展时间线,图源“逗砂”
深度学习在计算机视觉领域的发展可以追溯到2012年,AI学者吴恩达和Jeff Dean等人的猫脸识别实验(通过1000台电脑创造出多达10亿个连接的“神经网络”,上万张猫脸图片的模型训练后,最终画出了一个模糊的猫脸),这意味着机器自主学会了识别猫的面孔。此后科学家们在AI图像生成的方向上继续深入研究,提出了“GAN(生成对抗网络)”,通过生成器与判别器的互相博弈来不断提升生成能力,就像有一位老师在检查学生画得像不像,不像的话学生就重新修改,如此循环。
对抗1000次与100000次后生成的图像
2015~2020年,从GAN开始,AI绘画模型进行了很多探索,但这个时候AI还做不到根据文字来生成图片。直到2021年1月,OpenAI接连发布了两个连接文本和图像的神经网络DALL·E和CLIP。CLIP(跨模态预训练模型)基于大规模图文数据集进行了对比学习训练,可以提取文本和视觉特征来互相匹配。也就是说,AI能够将文字“猫”与猫的图像相关联,且关联的特征是非常丰富的。在CLIP推出一年后,2022年2月,Somnai等几个开源社区的工程师制作了一款AI图像生成器Disco Diffusion(简称DD),它能理解输入的主体内容、艺术风格、结构视角和修饰词,且生成的图片更华丽。DD作为免费开源项目搭载在Google Colab上,使用浏览器即可运行,AI绘画从此走入了大众视野。Disco Diffusion默认画作,输入文字:A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.", "yellow color scheme"(一座奇异灯塔的美丽画作,它的光芒照耀在汹涌的血海中,Greg rutkowski和Thomas kinkade风格,A站流行,黄色配色方案)不过DD并不是“CLIP+GAN”的组合,而是“CLIP+Diffusion”,Diffusion(扩散模型)也是当下最热门的图像生成模型。每张图像本质是一个像素点矩阵,Diffusion先是连续给图像添加高斯噪声,图像变成了一堆随机噪声,然后通过逆向反转这个噪声过程来学习恢复数据。Diffusion模型的的扩散过程和逆扩散过程
所以当我们在DD输入一段文字描述时,程序以Diffusion随机生成的噪声为起点,CLIP会持续计算检查画面与描述的一致性,持续迭代修改,直到噪声变成正确关联的线条和色彩,从而生成满足需求的图像。AI艺术研究者“FeiArt”认为,基于生成模型的AI绘画是一个“有码到无码”的艺术。虽然DD实现了文生图,但因为是开源的,上手门槛比较高,光是满屏的代码可能就要劝退新手小白了。“一开始要自己调整二三十个参数,以及编制比较合适的Prompt,才能画出比较理想的画面效果,对于使用者理解算法逻辑和写关键词的要求非常高。不过现在的版本基本不用调参数,只要写好关键词就可以了。”数字艺术家“脑玩家mindplayer”向我们介绍了DD的使用体验,她从今年3月开始在B站和小红书分享AI绘画作品和教程,是国内最早一批玩家。DD出圈不到一个月,很快就有更成熟、门槛更低的产品出现了——Midjourney(简称MJ),目前社区成员超260万。MJ搭载在Discord上(国外流行的虚拟社交平台),是一个公开的社区,用户加入后在聊天框输入描述文字发送,群内的机器人会回复生成图片。每次默认会生成4张图片,用户可以点击图片下方的按钮继续深化(u1/2/3/4),或者在此基础上生成同一风格、部分变化的图片(v1/2/3/4)。此时AI绘画的质感和想象力已经展现出了一定的审美水平和艺术效果,上文提到的获奖作品《太空歌剧院》便是由MJ生成的,作者在此基础上进行了修改完善。我们在谷歌趋势搜索关键词“ai painting”,可以看到近两年的热度迅速上升,尤其今年7月以来达到最高峰。很大一部分热度要归功于Stable Diffusion(简称SD)。“相比DD,MJ可能更突出作品的质量和独一无二的深化交互。而SD就胜在超全面的风格和极快的速度,而且对新手来说比较友好,网页版简洁易上手,免费的用量也可以体验不少的图。”AI绘画设计师“鱼摆摆”说道。SD新账号可以免费使用200点数,每次生成根据画面精细程度、张数等参数消耗不同的点数,最少1次1点。不过SD是完全开源的,用户可以选择线上或部署到本地来使用。6pen最近在微博发起了快闪活动,
用户写关键词发微博即可体验用SD生成图片SD出现后,AI绘画的浪潮越发汹涌,多位创作者表示可能前两天还在讨论的功能,第二天就被开发出来了。除了文生图,如今以图生图(image to image)、图像修复(inpainting)、图像拓展(outpainting)等功能都已实现,AI绘画也能驾驭国风、二次元等多元风格了。DALL·E outpainting
Waifu Diffusion(二次元老婆生成器)
文心一格 中国风画作
Tiamat 国风管线
02
AI绘画在内容领域如何应用?
在现阶段,对于艺术、影视、广告、建筑、时尚、新媒体等创意行业从业者来说,AI绘画正成为一个强大的助手,可以辅助日常工作,提高产出效率,降低时间和经济成本。比如“脑玩家mindplayer”使用AI辅助设计LOGO。原来的流程是先构思、手绘,再输入电脑调整,中间可能还要跟其他同事配合,来回沟通会耗费不少时间精力,但有了AI的帮助就非常高效了,“我告诉AI我要做什么,我们磨合一个小时活儿就干完了”。影视导演海辛在公众号“全民熊猫计划”分享了其公司将AI设计融入影视美术设计中的首次尝试——“这街5·李承铉队长大秀”,工作流大致为Midjourney -> Blender -> UE虚拟制片。他表示在极短的制片筹备时间内,AI创作大幅度地提高了效率,证明了AI投入到工业化使用是完全可行的。除了辅助设计,AI也能激发创意灵感。像服装博主“JINNY ”、婚礼策划师“哎呀呀哎吔吔”使用AI生成的概念图作为设计参考。PPT设计师、艺术博主“Simon_阿文”经常分享AI行业资讯和实用工具,他尝试用AI生成无缝纹理贴图,设计素材的获取变得更自由了。数字艺术家、小红书博主“对方正在画图”告诉我们,具体应用要看创作者的知识背景和prompt的写作能力,不同行业背景的人写出的词、画出的内容很不一样。这些从业者发布在网上的作品让更多人看到了AI绘画的可能性,非专业人士也跃跃欲试,希望大展身手。有观点认为专业人士在AI绘画上会更有优势,用起来更得心应手,实际上这个优势随着技术迭代已经在缩小了。“之前一个人从不会画画到能画出漂亮的、可读解的图像,可能需要很多年的训练。但是现在,有一个比较熟悉AI绘画系统的人教你的话,可能两三天就能学会大概的描述方法,再学习精进的时间成本降低很多了。”“脑玩家mindplayer”说道。“人人都可以是艺术家”,我们列举了几个AI绘画在内容领域的应用方向。1. 有经验的创作者可以用AI拓展新的内容题材,创新互动形式。
“大谷Spitzer”擅长修复旧照片和视频,现在他能结合AI绘画与手绘来“还原”莫奈1875年绘制的印象派油画《撑阳伞的女人》的写实风格场景。他通过选取多个局部区域用AI进行绘画生成,再辅助以手绘进行修饰细节和完善衔接处,最终完成了这幅作品。百万粉航空媒体自由撰稿人、航空画画家白玮,近期发布了自己用AI制作的漫画,是赛博式的志怪题材。随着技术发展,创作者平台方面也将给予更多AI工具支持,新的内容玩法值得期待。比如今年9月百度万象大会上推出了“创作者AI助理团”,通过文心大模型、文心一格、图文转视频等技术,为创作者提供“AI文案助理”、“AI插画助理”、“AI视频制作助理”,帮助创作者实现“一个人成为一支队伍”。“鱼摆摆”基于AI生成的作品做了很多领域的扩展和尝试,比如实体化成为卡牌游戏的卡片角色、拼图、实体墙绘彩绘素材、文创产品等等,也有做AI绘画教学课程。“鱼摆摆”供图
此外,还有创作者将AI生成图片进一步优化做成数字藏品,上链发售。3. 图文作者拥抱“配图自由”,可以尝试自己生成符合内容的封面图和插图了。公众号“槽边往事”从5月18日以来的封面图基本是作者和菜头自己用AI生成的,结尾附上了部分图片的描述词,他还在文章中分享了创作心得。本文的封面图也是我们初次使用Stable Diffusion生成的,“一个女生在书房里坐在桌前,桌上有一台笔记本电脑,窗外是秋天,有金黄的银杏树”,未经过二次修改。现在入门AI绘画越来越便捷了,新手不会写关键词,可以去爱好者创建的检索网站和群内“抄作业”,SD也可以接入Photoshop插件,创作门槛更低了。描述词检索网站lexica.art借助AI生成图片的能力,不会绘画的用户有机会实现自己的奇思妙想,出于爱好做一些小说插图、音乐MV、鬼畜玩梗等二创,从而跨入内容创作的大门。UP主“哀荣四泻”用AI为歌曲作画
AI绘画的下一步就是视频。近期AI作品《乌鸦》获得了2022年戛纳电影短片节最佳短片,据作者Glenn Marshall介绍,这部作品将真人舞蹈视频素材《Painted》输入OpenAI的CLIP,然后系统根据描述“荒凉风景中的乌鸦画”转化为动画。UP主“自由云朵”利用Disco Diffusion绘制,经由Topaz Video Enhance AI优化放大,复刻了周杰伦新歌《最伟大的作品》的MV,播放量达83万,这是他B站投稿中目前播放最高的作品。据百度文心方面介绍,AI生成视频,是AI生成图像的一种延伸。从技术本质上看,视频可以认为是多张“图片”,即视频帧构成的序列,且序列上各帧之间有画面、逻辑等层面的关联。因此,从严格的技术抽象层面出发,AI生成视频是相对更难实现的。当前文生图技术可以通过简单的技术组合,例如分步骤扩散生成等方式,将生成图像扩展到生成视频,但效果还不能令人满意。总结来说,AI按照生成图像的方式生成视频,仍处于前沿探索阶段。
03
AI绘画仍待探索的问题
“脑玩家mindplayer”表示,“AI绘画作为一个工具可以迅速被应用,人人都可以画出自己理想的世界,但是之后怎么办?这可能是行业内外的人都在思考的问题。”艺术相关从业者担心的是自己会不会被AI取代,因此失业。今年8月,《大西洋月刊》文章中使用Midjourney创作的图片作为插图引发了大量争议,如果媒体在未来大量使用AI绘图,那么插画师、摄影师的生存空间会不会被挤压,甚至行业都将覆灭呢?的确,人工智能的力量会对人们的生活带来很大变化,未来技术普及后不可避免会取代一部分重复性较高的初级岗位,但“艺术已死”的说法真的与现实相符吗?AI绘画具有创造性吗?Midjourney创始人David Holz曾在每周三Office Hour时间,回答了这个提问:
创造力本身有很多的形式,如果说是将两个不同的概念混合在一起,像是赛博朋克和洋葱,也许历史上从未有过做赛博朋克洋葱的人类。在将两个不同概念混合在一起的能力上,AI目前基本是人类的水平。但我认为艺术家不仅仅是关于图像的产生者,艺术往往是关于故事和情感的,而AI没有故事和情感,AI创作的影像的叙事来源于使用TA的人。贝壳皆来自大海,但海洋非造物者。美石皆来自川河,但河流非孕育者。这套系统并无创造的能力,但美可以来自其中。AI绘画本质如同行云,TA并无任何主观的意愿。
虽然乐观的从业者纷纷投入研究AI绘画,但在行业上下游,受到冲击的付费图库首先用行动表示了抵制。近日,继Newgrounds、PurplePort和FurAffinity后,图库服务商Getty Images禁止上传、销售使用AI生成图片,这意味着由DALL·E、Midjourney和Stable Diffusion等工具生成的作品将无法上传并获得任何收入。并且,之前上传平台的AI生成图片也一概作删除处理。Getty Images首席执行官Craig Peters表示,该禁令是出于对AI生成内容合法性的担忧以及保护网站客户的愿望,但他并未透露Getty Images是否因为销售AI生成作品而面临诉讼纠纷。实际上,目前海内外关于AI生成图片的合规性颇有争议。上文我们谈到AI生成图像的原理是深度学习了大量图文数据,会抓取网络公开的他人作品,生成的图片与训练的作品相似,甚至有时还会混入原创水印痕迹,所以有观点认为训练库涉嫌抄袭和侵权,部分从业者也公开表明禁止AI学习自己的作品。近期被抵制下线的日本AI绘画平台micmic就是一个典型例子。涉及到商业使用时,AI生成图片的版权到底归谁所有?这个问题不同平台都有各自的说法,具体还要看对应的版权说明。DALL·E:
https://labs.openai.com/policies/content-policy?continueFlag=ef7d16db9473cdc8d5561a6340adbe96Midjourney:
https://midjourney.gitbook.io/docs/terms-of-service?continueFlag=ef7d16db9473cdc8d5561a6340adbe96
Stable Diffusion :
https://stability.ai/stablediffusion-terms-of-service?continueFlag=ef7d16db9473cdc8d5561a6340adbe96有的平台表示属于生成者,比如6Pen声明不保留版权,生成的图片版权都归属生成者,可随意自用商用。有的属于平台,有的完全开源,不属于任何人。根据Midjourney的服务协议,输入prompt的人享有生成图像的版权,但对于prompt版权的归属却没有定论。据观察,现在业内已出现贩卖文本prompt、AI洗稿的现象,还有甚者直接盗图卖图,一些壁纸号是重灾区,所以许多创作者选择不公开作品的prompt,标注禁止转载和商用。一般AI绘画商用避免侵权的做法是增加独创性,将AI作为辅助或基础素材。“Simon_阿文”认为,如果有以下一种或者多种情况,建议不要商用:
【1】当你使用了风格鲜明的艺术家作为关键词时,请不要直接商用,尤其是在世的艺术家;
【2】当你使用了某部商业作品作为关键词时,请不要直接商用;关于版权问题,百度文心方面表示对图片版权非常重视,如果平台未来开放出来的生成图片侵犯到原作者权益,百度会提供投诉反馈通道,为相关权利人提供权利救济渠道,迅速处理。“AI文生图的版权问题是国内外法律都在持续探讨的方向,百度会跟进国内外发展情况,结合国内法律法规,有最新进展会更新给大家。”此外,AI本身没有价值判断,只是提取训练库数据的特征与人们输入的数据相对应,当人们刻意输入暴力、血腥、涉黄等敏感信息,或将生成的图片用于虚构事实时,AI也可能随之陷入伦理道德的困境。在这方面,DALL·E 2做了很多限制和干预,比如减少性别偏见的产生、防止训练模型生成逼真的个人面孔。人工智能是个新兴行业,可以看到相关的行业规范正在向前迈进。10月1日起实施的《上海市促进人工智能产业发展条例》立法确立了人工智能产品和服务的行为底线,明确相关主体开展人工智能研发和应用,应当遵守法律、法规规定,增强伦理意识,并不得从事相关禁止行为。比如禁止提供危害用户人身或者财产安全、侵害个人隐私或者个人信息权益的产品和服务;禁止利用算法技术实施价格歧视或者消费欺诈等侵害消费者权益的行为,实施垄断或者不正当竞争等行为等。纵观内容生态的发展,大致可以分成四个阶段:专业生成内容(PGC)、用户生成内容(UGC)、AI辅助生产内容、AI生成内容(AIGC)。AIGC(Artificial intelligence-generated content)即通过AI技术来自动或辅助生成内容的生产方式。图源量子位智库《AIGC/AI生成内容产业展望报告》
“未来十年,AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容。”百度资深副总裁、百度移动生态事业群组(MEG)总经理何俊杰在2022万象大会上说道。可以预见的是,未来人工智能将会深入影响各类内容创作领域,潘多拉的魔盒已然打开,痛苦与希望并存。【答案:这五张图分别出自作者“tarte”、“脑玩家mindplayer”、“陈麒宇”、“WLOP”和“抚光”,只有D“WLOP”未使用AI创作,WLOP是AI绘画描述中经常被引用的知名画师。】
本文作者卷毛,编辑张洁,校对松露,转自公众号「新榜」(ID:newrankcn),专注新媒体内容领域的观察报道,关心与内容产业相关的人和事。
这里聚合世界及中国500强企业优秀营销人才,共同探讨创意进化、品牌增长、商业力量与企业间合作;这里聚合国际与本土一流广告代理商,发布即时动态、分享优质案例、进行人才招聘;这里聚合业界资深作者,以全面视角洞悉行业生态,创作有价值的内容。