- 0
- 0
- 0
分享
- 李鸣超 徐迎庆:技术视角中的数字艺术前景——以AI绘画技术演进为核心
-
原创 02-28

中华人民共和国文化和旅游部主管
中国艺术研究院主办
2025年第1期 总第254期
中国人文社会科学期刊AMI综合评价(A刊)核心期刊
中文社会科学引文索引(CSSCI)扩展版来源期刊
RCCSE中国核心学术期刊(A)
中国人民大学“复印报刊资料”重要转载来源期刊
特别策划
技术视角中的数字艺术前景——以AI绘画技术演进为核心
李鸣超 徐迎庆
【内容提要】随着计算机视觉和人工智能技术的快速发展,AI绘画逐渐成为数字艺术研究的热点。在艺术学领域,从艺术角度反思技术的研究已较多见,而从技术角度考察艺术则鲜有涉及,因此有必要以技术发展为主线回顾AI绘画的演进,剖析从早期计算机制图、基于规则的图形图像算法到基于深度学习的图像生成三个阶段的发展历程,进一步审视当前AI绘画领域的主流技术,包括文本生成图像、模型微调和可控图像生成等方法。在此基础上,探讨AI绘画面临的技术局限、版权争议、伦理风险等问题,有助于呈现未来AI绘画技术的发展图景。
【关 键 词】AI绘画;生成式人工智能;计算机视觉;可控图像生成
在艺术发展历程中,工具的革新一直是推动艺术创作方式和表达形式变革的动力。工具不仅是技艺的延伸,更是艺术家表达思想与情感的重要媒介。从石器、毛笔、颜料到相机,再到现代的人工智能技术,每一次工具的更新都为艺术家开辟了新的创作路径,拓展了艺术表现的形式和内涵。其中,人工智能(AI)绘画不仅提供了全新的创作技术手段,还深刻改变了传统艺术的创作流程和思维方式。回顾AI绘画技术的发展历史,艺术家们从早期的计算机制图开始,逐步迈向基于规则的图形图像算法,最终在深度学习技术的推动下实现了图像生成的革命性突破。这一技术演变的过程为我们理解未来艺术的走向提供了新的视角。
一、人工智能绘画技术的三个历史阶段
(一)奠基:早期计算机制图(1950—2000)
数字艺术的技术基础是建立在计算机制图之上的。1946年,世界上第一台通用计算机“ENIAC”问世,标志着计算机时代的来临。计算机的出现为计算与艺术的结合提供了土壤,艺术先驱们开始尝试借助新工具进行创作,由此出现了早期数字艺术萌芽[1]。1950年,美国艾奥瓦州的绘图员本·拉波斯基(Ben Laposky)开始使用示波器进行实验,探索通过电子信号生成抽象图形的可能。他通过控制电子束照射示波器的荧光屏来产生各种数学曲线,然后用长时间曝光的方式将这些图形记录在胶片上,创作了一系列抽象图像《振荡》(Oscillons,见图1)。其中一部分图像于1952年发表在《数学文献》(Scripta Mathematica)上,被认为是世界上最早的计算艺术作品。1953年,美国艾奥瓦州的桑福德博物馆展出拉波斯基的这些作品,并正式将其命名为《电子抽象》。这次展览使拉波斯基被认为是电子艺术的先驱。在后来的工作中,拉波斯基进一步借助可变速的电动旋转滤镜制作彩色的抽象图像,彩色《电子抽象》作品进一步巩固了拉波斯基在数字艺术领域的地位。
▼图1 本·拉波斯基 《振荡》 示波器生成的电子图像 1950▼

随着计算机技术的发展和编程语言的推广,数字艺术领域在20世纪60年代快速发展。1963年,A.迈克·诺尔(A. Michael Noll)在IBM7094计算机上使用Fortran编程语言生成了基于高斯分布和二次方程的曲线作品《高斯二次方程式》(Gaussian Quadratic,见图2)。这些曲线在图形上呈现平滑且对称的抽象形式,展现出一种独特的数学美感。1964年,受蒙德里安的《线条构图》启发,诺尔创作了作品《计算机线条构图》(Computer Composition with Lines)[2]。诺尔的作品非常接近蒙德里安的风格,使用随机数生成和数学算法来创建类似的构图,展示了计算机能够在一定程度上模仿人类艺术家风格的能力。1967年,查尔斯·舒里(Charles Csuri)利用大型计算机创作了最早的“数字绘画”《正弦人像》(Sine Man,见图3)。这幅作品通过叠加大量正弦曲线,形成一个男人头像,展示了计算机生成复杂抽象视觉形式的潜力。1968年,舒里再次突破技术限制,利用IBM1130型号计算机生成了世界上第一部完全由计算机制作的动画短片《蜂鸟》(Hummingbird)[3],短片由3万余张蜂鸟的图片组合而成,这也是计算机动画的开端。舒里的作品和研究对计算机在艺术创作中的应用产生了深远影响,他被誉为“计算机艺术之父”[4]。
▼图2 A. 迈克·诺尔 《高斯二次方程式》 Fortran编程生成照片印刷版 30.5cm×22.9cm 1963▼

▼图3 查尔斯·舒里 《正弦人像》 计算机正弦曲线叠加生成印刷于亚克力玻璃 103cm×105cm 1967 Spalter 数字收藏▼

制图软件的出现和发展推动了艺术、设计和工程领域的革新。1963年,计算机制图领域的开创性工具Sketchpad软件诞生[5],计算机辅助设计由此开始。它允许用户使用光笔直接在计算机屏幕上绘制几何形状并可实时操纵和转换图形。这项创新为现代图形用户界面(GUI)铺平了道路,并为包括工程、设计甚至现代虚拟现实系统在内的众多领域奠定了基础。1974年问世的AARON是技术与艺术交叉领域的又一重要软件。它能够按照艺术家预先设计的图像内容控制机械臂进行绘画,是首批能够自主进行实际创作操作的人工智能程序之一[6]。在这一阶段,计算机主要为艺术家执行重复性工作,而艺术创作的核心仍由人类艺术家掌控。
1982年,软件AutoCAD一经发布便迅速成为应用广泛的商业计算机辅助设计(CAD)软件,彻底改变了建筑、工程和工业设计领域。它使得复杂的图形设计和工程图纸能够在计算机上轻松生成和修改,大大提高了设计工作的效率和精度。同样,Adobe公司于1990年发布的Photoshop为数字图像编辑带来了革命性的变化。它允许用户灵活处理和增强数字图像,成为平面设计、摄影和数字艺术领域不可或缺的工具。Photoshop逐渐成为图像编辑领域的行业标准,其简写“PS”更是成为图像编辑的代名词。这两款软件的普及让艺术家和设计师能够以更高效、更精准的方式进行创作,推动了数字艺术和设计行业的全面发展。
(二)基于规则的图形图像算法(2000—2010)
进入21世纪,随着编程语言的逐步成熟以及机器学习的兴起,软件开发者们结合人类的先验知识和精心设计的规则,研究出了一系列图像学和图形学方法,为图像处理和生成提供了更加先进和强大的工具。其中,典型的方法有图像类推、图像融合、图像补全等。这些基于规则的算法方法为数字艺术的发展注入了新的活力,也为深度学习等技术的应用奠定了基础。
图像类推(Image Analogies)算法由亚伦·赫兹曼(Aaron Hertzmann)等人在2001年提出,是图像处理和生成领域早期阶段的一项重要进展[7]。其核心思想是计算机通过学习一组图像之间的转换规则,将这些规则应用于新的图像,从而生成类似的图像。具体来说,这种方法基于类比关系,即如果A和A'是一组(2张)原始图像和转换后的图像,算法能够根据这组图像的转换原则将新的输入图像B转换成与A'类似的图像B'(见图4)。该算法可以被应用于多种图像处理和生成任务,如风格迁移(将艺术风格应用到新图像)、纹理合成(根据已有的纹理生成新图像)、图像修复、超分辨率生成(将图像分辨率由低转换为高)等。在风格迁移领域,它为后来的神经风格迁移[8]等技术奠定了理论基础。
▼图4 亚伦·赫兹曼等 图像类推算法示例 2001▼

图像融合是通过将不同图像的特征结合起来,生成无缝且自然的合成图像的技术。2001年,色彩迁移算法诞生[9],它通过在颜色空间中进行线性变换,将一幅图像的色调和色彩信息应用到另一幅图像上。这种方法有效地实现了图像之间色彩风格的统一,被广泛应用于风格转换、色彩调整和图像合成等领域。2003年,图像处理技术泊松图像编辑[10]通过求解泊松方程来实现图像的光滑融合,可使一幅图像中的部分内容无缝地嵌入另一幅图像(见图5)。2004年,一种交互式数字拼贴技术[11]的出现使用户能够选择图像中的不同区域,并通过算法结合这些区域,实现无缝的图像拼贴。利用梯度域操作,这一方法有效避免了传统拼接技术中的边缘伪影问题,实现了平滑过渡,极大提高了图像的自然感。
▼图5 巴勃罗·佩雷斯等 泊松图像编辑示例 2003▼

图像补全是一类修复或填补图像中缺失区域的方法。2000年,贝尔塔米奥(Bertalmio)等人首次提出了基于偏微分方程的图像补全方法[12]。用户只需要选择待修复的区域,算法即可自动使用周围信息进行填充。这一方法为现代图像补全研究奠定了基础。基于样本块的图像补全算法[13]则不同,它从图像中找到相似的样本块来填补缺失区域,能够更好地保留图像中的纹理细节,使补全后的图像更加自然逼真。2007年,海斯(Hays)等人提出利用大规模图像数据库进行场景补全的概念[14]。他们从庞大的图像集合中寻找与目标图像相似的区域,并将这些区域融合到缺失部分,实现了高质量的场景补全(见图6)。这也是现代AI图像生成技术中广泛应用的方法。
▼图6 詹姆斯·海斯等 场景补全算法示例 2007▼

在这一阶段,算法依赖人为设计的规则和特征映射,在一定程度上实现了图像处理的自动化,并且具有较高的可控性和可解释性。用户可以通过调整算法的参数或规则进行控制。基于规则的图形图像算法推动了数字图像处理技术的发展,为后来的深度学习技术提供了宝贵的经验和理论基础。
(三)基于深度学习的图像生成方法(2010—2018)
基于规则的方法在可控性和可解释性方面表现优异,但在处理复杂多样的图像任务(如多样化的场景或复杂细节特征)时仍存在局限性。因此,泛化性能更强的深度学习方法逐渐成为研究的主流方向。其中,卷积神经网络(CNN)通过多层次的特征提取,极大提升了计算机对图像结构和内容的理解,成为图像处理和生成的基石;生成对抗网络(GAN)的提出则显著提升了生成图像的质量和多样性,开启了深度学习生成图像的新时代;扩散模型(Diffusion Models)的出现更促使图像生成进入全新的阶段。它以其独特的生成过程和强大的生成能力进一步推动了AI图像生成技术的发展。
卷积神经网络是深度学习在图像处理领域的核心架构。2012年,亚历克斯·克里切夫斯基(Alex Krizhevsky)等人提出的深度卷积神经网络(AlexNet)是该领域里程碑式的突破[15]。它在ImageNet大规模视觉识别挑战赛(ILSVRC,2012)中以明显优势获胜,其创新包括引入了线性整流函数(ReLU)和重叠池化层,这些技术显著提升了模型的性能,特别是在大规模图像处理任务中有效地减少了过拟合问题。在工业应用方面,AlexNet更是引领了深度学习技术在图像分类、目标检测和图像分割等多个领域的广泛应用,标志着深度学习在计算机视觉领域的全面崛起。之后,“神经风格迁移”利用卷积神经网络将图像的内容特征和风格特征进行分离和重组,从而实现图像风格迁移。它能够模仿多种艺术风格,生成具有艺术感的图像,展现了深度学习在图像风格迁移中的强大能力(见图7)。在此基础上,许多后续工作进一步提升了生成质量、速度和多样性,如实时风格转换[16]和图像提示适配器[17]。然而,卷积神经网络依赖预定义的损失函数,难以捕捉图像的复杂性和多样性,因而在图像生成任务(尤其是生成高质量、多样化图像)中表现不佳。例如,2012年,吴恩达等人使用了1.6万个图形处理器(GPU)训练了一个规模庞大的卷积神经网络,但仅生成了一幅模糊的猫脸图像(见图8)。对抗网络等新技术由此应运而生。
▼图7 加茨比等 神经风格迁移示例 2016▼

▼图8 吴恩达等 卷积神经网络生成的猫脸示例 2012▼

作为一种影响深远的图像生成技术,生成对抗网络[18]包含两个主要部分——生成器和判别器,其核心思想是通过博弈论的对抗训练,使生成器不断改善生成图像的质量,以欺骗判别器,从而生成更加逼真和多样化的图像。这一创新机制突破了传统损失函数带来的限制,广泛应用于图像修复、图像风格转换、超分辨率图像生成等任务(见图9)。基于生成对抗网络的多个变体如条件生成对抗网络(Conditional GAN)[19]和循环生成网络(CycleGAN)[20]进一步提升了其图像生成能力。前者通过在生成器和判别器中引入条件变量,使得依据特定的输入条件(类别标签、文本描述、边缘图像)生成图像(见图10)成为可能。它允许用户在生成过程中对结果施加更多的控制,为可控图像的生成奠定了基础。后来的控制网(ControlNet)[21]继承了这一理念,在网络架构中引入额外的控制信号以实现更精确的控制。循环生成网络引入循环一致性损失,使图像能在不同图像域间转换,并在不依赖成对训练数据的情况下,保留原始图像的结构信息。其在无监督图像转换任务中表现出色,广泛应用于风格转换和跨域图像翻译,如将照片转换为画作风格、将图片中的棕马转换为斑马等任务(见图11)。生成对抗网络也存在一些显著缺点,如训练不稳定、存在模式崩溃问题、难以生成高分辨率图像等,这为其后扩散模型的发展提供了契机。
▼图9 伊恩 · 古德费洛等 生成对抗网络生成图像示例 2014▼

▼图10 伊索拉等 条件生成对抗网络生成图像示例 2017▼

▼图11 朱俊彦等 循环生成网络在图像域之间的转换示例 2017▼

二、当下人工智能绘画技术的趋向
(一)文本生成图像
随着注意力机制在深度学习中的广泛应用,以及大规模预训练模型和图像生成模型的不断发展,AI绘画技术实现了通过语言文本直接引导图像生成,彻底改变了传统的图像生成方式。相较而言,文本生成图像技术(文生图)能够更直接地将人类语言转化为视觉内容,提供了灵活且友好的交互体验。
基于注意力机制的生成对抗网络(AttnGAN,2018)[22]是第一个将注意力机制引入文本到图像生成任务的模型。它通过多阶段细化图像生成过程,使模型能够更精确地捕捉文本中的细节信息,从而生成高质量、细粒度的图像。2019年,在其基础上改进而成的镜像生成网络(MirrorGAN)[23]引入“镜像式”生成和重构机制,进一步增强了生成图像与文本描述之间的语义一致性。2021年初,OpenAI发布了DALL-E系统,第一次将大规模自然语言处理模型(Transformer)[24]应用于文生图,为后续图像生成模型的发展奠定了基础。尽管DALL-E在语义理解和创造性图像生成方面表现出色,但它的图像生成质量仍显不足,特别是在某些场景的细节处理上。
2021年,OpenAI开源了对比语言—图像预训练(Contrastive Language-Image Pretraining,CLIP)模型[25]。其最大创新在于使用了4亿对高质量的“文本—图像”配对数据进行训练。凭借庞大的数据量和良好的标注,该模型在性能上获得了巨大提升,成为当时“文本—图像”匹配效果最佳的模型。CLIP的训练采用了“对比学习”的策略,模型包含两个编码器:图像编码器和文本编码器,分别将输入的图像和文本嵌入相应的向量空间中。训练目标是使图像与其对应文本的特征向量距离最小化,而与不相关文本的特征向量距离最大化。在功能上,CLIP实现了“文本—图像”配对,它允许用户根据文本从一组图像中找到最匹配的图片,也可以根据图像查询最相关的文本描述。值得注意的是,CLIP本身并不能直接生成图像,但它的文本编码器可以作为控制条件,引导生成模型生成与文本匹配的图像。之后的AI绘画模型如DALL·E2、Imagen、Stable Diffusion等均使用了CLIP模型中的文本编码器进行语义引导,显著提升了图像生成的质量和与文本描述的匹配度。在模型开源后,一系列相关研究工作充分利用CLIP在文本与图像之间的语义对齐能力,推动了图像生成、绘画和创意应用新方向的探寻。例如CLIPDraw[26]和CLIPasso[27]可生成手绘风格(见图12)或抽象艺术风格(见图13)的图像,而“Words as Images”项目[28]则将单词中的字母直接转换为符合单词语义的图像(见图14),展现了独特的视觉创意。这些工作借助CLIP的语言理解能力优化矢量图形,而非直接生成与文本对应的高分辨率图像。想要进一步实现高质量的“文生图”,还需要结合一个稳定可靠的图像生成器。
▼图12 凯文·弗兰斯等 CLIPDraw 生成手绘风格图像示例 2022▼

▼图13 耶尔·温克等CLIPasso 生成抽象艺术风格简笔画图像示例 2022▼

▼图14 希尔·伊鲁兹等“Words as Images”项目示例 2023▼

扩散模型(Diffusion)的引入有效解决了生成对抗网络模型面临的挑战。2020年出现的去噪扩散概率模型(Denoising Diffusion Probabilistic Models,DDPM)[29]是扩散模型发展中的重要进步。DDPM定义了两个关键过程——训练过程和推理过程。在训练过程中,模型向数据逐渐添加噪声,经多步采样将数据逐步转化为高斯噪声。每一步产生的噪声可作为监督信号,指导模型学习预测噪声的能力。在推理过程中,模型以高斯噪声图像为初始值,每一步使用训练好的模型预测当前噪声,并逐步去噪,最终生成清晰的图像。通过这种逐步生成的方式,DDPM克服了生成对抗网络中的模式崩溃问题,并在图像质量和多样性方面表现出色。然而,扩散模型的一个明显缺点是推理过程的计算开销极大。图像生成需要经过t次去噪步骤,通常t在几百到几千之间,因此运行速度较缓慢。为解决这一效率问题,研究者们提出了多种优化方法:如去噪扩散隐式模型(DDIM)[30]即在逆向扩散过程中减少生成步骤,显著加速图像生成过程,同时保持生成质量;扩散模型采样(DPM-Solver)[31]通过引入一种快速的常微分方程(ODE)求解器,显著加快了采样过程(采样步数在20至30之间);潜在一致性模型[32]则引入了潜空间加快采样速度,采样步数被压缩到5步以内。在这些加速算法的推动下,扩散模型逐渐在图像生成领域崭露头角,成为生成高分辨率、多样化图像的强大工具。
2022年4月,OpenAI发布的DALL·E2模型在技术上结合了对比语言—图像预训练模型和扩散模型的优势:既通过语义引导更精准地理解文本描述,又能确保生成的图像具有更高的分辨率和更丰富的细节(见图15)。与之前的模型相比,DALL·E2在图像质量和细节表现上有了显著提升,人们在其生成的结果中看到了AI绘画技术的巨大潜力。2022年8月,借助软件Midjourney创作的作品《太空歌剧院》(见图16)在美国科罗拉多州的新兴数字艺术家竞赛中荣获数字艺术类别一等奖,展现了人工智能在数字艺术领域的潜力和创造力。这在艺术界和科技界引起了广泛关注和讨论。2022年8月,Stability AI开源了Stable Diffusion模型[33],极大地推动了AI绘画技术的普及。该模型采用了结合多种模型的潜空间扩散模型技术,能够在较少的采样步数下生成高分辨率的图像(见图17)。用户可以在自己的电脑上或云端服务器上部署网络产品界面(WebUI)或者节点用户界面(ComfyUI)设计,用一般的英伟达游戏显卡就可以运行。Stable Diffusion的最大贡献在于它提供了一个开源的AI绘画平台,人们可以自由使用和改进模型,以适应不同的创作需求,因此它很快就在全球范围内获得了广泛应用,波及从艺术创作[34]到商业设计[35]的各个领域[36]。
▼图15 DALL·E 2 生成的图像示例 2022▼

▼图17 Stable Diffusion 生成的图像示例 2022▼

▼图16 杰森·M. 艾伦 Midjourney 生成《太空歌剧院》 2022▼

(二)模型的微调
随着DALL-E、Midjourney和Stable Diffusion等AI绘画工具的推出,越来越多的创作者和研究人员开始利用这些模型进行艺术创作并对其进行商业应用。然而,在实际应用中,用户常常希望生成的图像能够更好地满足特定需求,例如包含特定风格的艺术作品,具有品牌一致性的视觉元素,或是在某一特定领域中表现出更强的专业性。为了满足用户个性化和专业化的需求,模型微调方法逐渐成为热门技术。
在Stable Diffusion开源平台中,常用的模型微调方法有DreamBooth、TextualInversion、Hypernetworks、Low-Rank Adaptation(LoRA)[37],不同的微调方法适用于不同类型的任务和目标,因此,在实际应用中选择合适的微调方法至关重要。通常,全量模型微调需要大量数据和计算资源。例如,Stable Diffusion的基础模型使用了约50亿张图像进行训练,这对于大多数用户而言并不现实。相较而言,LoRA微调方法因其轻量、方便且效果良好的特性,成为目前最常见的微调方法。它通过将模型权重更新限制在低秩子空间中,避免了对整个模型的大规模更新,仅需调整少量参数,显著降低了计算资源需求。借助LoRA微调方法,艺术家和设计师可以利用少量数据对特定任务进行高效微调,轻松创作出符合个人风格或品牌风格的图像作品(见图18),并便捷地将微调后的模型共享到社区中,其他用户可以在这些模型的基础上进一步创作和创新,从而形成一个良性循环的创作生态。
▼图18 使用微调模型生成图像示例 2023—2024▼

(三)可控图像生成
模型微调技术大大提高了图像生成的个性化程度,但它们仍然主要依赖在训练中对模型进行调整,微调后的模型在生成过程中只能按照微调时设定的规则输出,难以对生成的内容进行实时灵活的控制。在实际应用中,用户往往需要在图像生成的过程中直接控制特定的元素或属性,而不仅仅是通过预先定义的风格或特性,这些需求催生了更加细粒度的可控图像生成技术。
2023年,张吕敏等人提出了可控图像生成的典型代表——控制网。与条件生成对抗网络类似,控制网同样通过引入外部控制信号来指导图像生成的过程。这些信号可以是用户提供的各种信息,如姿态图像、边缘图像、深度图像、语义分割图等(见图19)。通过将这些外部信号与扩散模型结合,控制网能够在生成图像时严格遵循这些特征的要求。强大的控制能力使其在多个领域得到广泛应用。例如,在游戏角色设计中,用户可以输入角色的姿态或骨架图来生成形象;在建筑与工业设计中,设计师通过输入草图或建筑轮廓图生成符合要求的渲染图;在艺术创作中,艺术家可以通过草图指定图像的构图或轮廓,以确保最终的作品符合他们的创作意图。
▼图19 张吕敏等 ControlNet 通过条件控制图像生成的示例 2023▼

除了文本提示词和控制网提供的信号外,图像本身也可以为生成图像提供有价值的参考。2023年,腾讯AI实验室的图像提示适配器(IP-Adapter)利用解构的交叉注意力机制,使文本到图像模型能够利用图像提示(image prompt)来生成图像,用户可以输入一幅额外的图像作为参考图像来控制生成的结果(见图20)。图像提示适配器提供了风格、内容和角色三种类型的模型,用户可以根据目标选择需要参考的视觉特征。此外,它还可以将图像提示与控制网的信号(如姿态、纹理或风格)相结合,同时控制生成过程。2024年,IP-Adapter的更新版本提供了更丰富的控制工具,如补充图层权重控制,允许用户在多图参考中更精细地调整参考图像对输出的影响;新增FaceID模型,支持生成具有更精细面部特征的图像。这些改进为用户提供了更强大的实时控制能力,使图像生成更加灵活和多样化。类似方法还有T2I-Adapter和InstructPix2Pix等,这些方法为艺术创作、图像编辑以及个性化设计提供了强大的工具。
▼图20 图像提示适配器(IP-Adapter)通过输入参考图像控制生成的结果示例 2023▼

可控生成技术的出现极大弥补了传统文生图技术的随机性缺陷,使用户可以更精准地定义和调整生成内容。因此,可控生成已成为当下热门的研究方向之一。随着其发展,AI绘画已经不再局限于简单的“文生图”,而是能够通过引入更加复杂的设计和控制能力,拓展创作的可能性。例如,在ComfyUI中,设计师可以通过组合各种图像处理技术和可控技术形成具有独特功能的工作流,来执行功能多样、构思巧妙的图像生成任务。这使得AI绘画不仅仅是自动化工具,而且是设计师与创意工作者表达复杂想法的得力助手。
三、AI智能绘画艺术的挑战与前景
AI绘画技术在艺术创作和设计领域展现了前所未有的创新潜力。通过学习海量的图像数据,AI绘画模型不仅可以高效地生成美观的图像,还能根据用户提供的文本提示、图像提示、草图、骨架等多种控制条件进行个性化调整,实现创意与技术的深度融合。然而,技术的进步也带来了一系列问题和挑战,这为数字艺术未来的发展和AI技术应用带来了新的思考和探索方向。
(一)技术局限性
首先,目前的AI绘画主要是基于深度学习技术训练模型,这些模型通过学习数据集的特定分布来生成新的图像。因此,AI绘画的质量高度依赖训练数据的丰富性和多样性。模型需要大量的多样化的图像数据进行学习,以掌握不同的风格和构图方式。如果训练数据不够多样化,AI生成的作品便会局限于特定的风格,导致作品同质化,缺乏创新[38]。模型微调技术的发展一定程度上可减少对数据规模的需求,但要构建一个具有广泛泛化能力的模型,仍然需要大规模、高质量的数据支撑。然而获取数据非常困难,尤其是当数据涉及特定领域或专业场景时,数据的稀缺性更为突出。
其次,虽然AI模型在生成高质量图像方面表现出色,但在处理复杂的结构和逻辑时仍然存在理解能力不足的问题。例如,在生成人物的手指和面部时,AI常常会出现失真、结构错位或细节错误。这是因为AI难以像人类那样全面理解整体结构、细节以及文本中的复杂场景或抽象概念,只能依赖数据模式进行模仿和重建,用户也不得不在使用时反复调整输入文本,才能得到接近预期的效果。
最后,在传统绘画中,艺术家可以随时在画布上调整细节,无论是局部的颜色、形状、质感,还是整体的构图和光影,甚至作品的整体氛围,都能通过精细的笔触和线条处理实现“所想即所得”。相比之下,AI绘画的生成性使用户难以对特定区域进行精准的实时控制,它在很多时候更像是“黑盒”,缺乏灵活的后期编辑能力。目前,已经有一些先进的方法如ControlNet、T2I-Adapter尝试增加AI绘画的可控性和编辑灵活性,Layer Diffusion能够在生成结果的同时对图像进行分层处理,一定程度上提高了AI绘画的可编辑性。相信未来可控性、可编辑性更强的创作工具会为艺术家提供更大的创作自由和表达空间。
因此,在AI绘画技术未来发展上,方向之一是向高度个性化和可控性发展。现有的模型微调和可控图像生成技术已经初步实现了基于用户需求的图像生成,未来的模型将会实现更高精度的控制,使用户能够实时地、灵活地调整图像中的细节,如色彩、风格、构图等。例如,ControlNet和IP-Adapter等技术将进一步发展,更加契合艺术家的个性化需求。此外,随着扩散模型的快速发展,图像生成技术正在不断克服其现有的局限性,DDIM、DPM等算法的出现大大优化了图像生成的速度,生成的图像质量和多样性也将显著增强,未来还会有更多的优化算法突破现有框架的局限。同时,除了扩散模型的优化,也可能涌现新的生成算法,为图像生成领域注入新的活力,AI绘画将不再局限于图像的静态生成,还可能扩展到动态场景、交互式设计等更为广阔的领域。
(二)法律与行业问题
从工具视角来看,作为新工具或技术手段的AI绘画给既有法律法规和行业带来了冲击与矛盾。一方面,AI绘画技术的发展需要从既有艺术门类、产业获取数据支持,即法律授权;另一方面,AI绘画技术生成的作品可能与数据提供者如艺术家、摄影家等的作品风格相似,这不仅会带来侵权问题,更可能损害艺术家的创作权益,削弱其作品的独特性和市场价值。此外,AI绘画技术的应用对传统行业从业者尤其是需要大量设计和插图的商业领域(如广告、插画、游戏设计等)的工作人员,如部分艺术家、插画师和设计师造成职业压力,从而使他们乃至更大范围的艺术从业者拒绝对技术开发商授权。如果没有完善的数据保护法规和版权法,AI技术进步与艺术领域、商业发展都将陷入恶性循环。
从行业角度看,AI绘画的主要优势在于高效生成草图、变换风格和进行重复性任务,但在创意表达、情感融入和文化理解上,仍然需要人类艺术家的参与。过度的商业宣传往往突出其独立性,而忽略了AI作为人类辅助工具的本质,这不仅可能导致社会对艺术的理解逐渐偏向机械化和商品化,更遮蔽了人机协作可能带来的双赢的发展方向。研究表明,AI绘画更可能成为人类艺术创作的工具,而非完全取代人类创作。通过掌握这些工具,艺术家可以突破创作的边界,提升竞争力[39]。随着技术和体系不断完善,AI绘画有可能发展成为信息设计艺术或数字艺术下的一个新兴学科。
在法律领域,目前AI训练数据的版权及其相关争议已经成为讨论热点,部分艺术家甚至开始对开发公司提出诉讼,要求明确版权归属[40]。2023年,莎拉·安德森(Sarah Andersen)等数位艺术家对Stability AI、Midjourney和DeviantArt提起集体诉讼。艺术家们注意到人工智能生成的图像的风格与自己的独特风格非常相似,并认为这会损害他们的职业前景[41]。一些国家和地区的法律法规(如欧盟的《通用数据保护条例》[42])对个人数据的使用进行了严格限制,这使得AI在图像生成过程中必须确保其数据来源的合法性。然而,AI作品的版权问题并不易解决。其一,作品的版权归属问题一直存在争议。AI作品是否应该有版权,如果有,版权应归属于谁——模型的开发者、使用者,还是数据提供者?其二,生成的作品可能包含训练数据中原始作品的特征元素,如构图、色彩搭配等,其相似度难以被精确量化,且法律上关于相似度的判定标准并不明确,这使得判断生成作品是否构成侵权变得困难。目前,美国等许多国家的版权法要求版权持有人必须是“人类作者”,那么AI生成的作品可能无法受到传统版权法的保护[43]。但值得注意的是,新生代艺术家利用AI进行创意表达仍然体现了人类的智力成果。例如,艺术家通过设计复杂的ComfyUI工作流进行创意表达[44],显示了人类在整个创作过程中的主导地位。
因此,新的人机协作创作形式也应得到法律的认可与保护,以激励更多艺术家探索AI与艺术结合的可能性。当下法学界对AI作品版权归属和模型训练数据合法性等问题的热议表明,相关法律法规的出台是值得期待的。规则的完善会为艺术家等人类创作者提供更好的版权保护。此外,建立AI生成内容的审查和溯源机制将有助于确保技术在符合道德和法律的前提下发展,这也是AI绘画技术健康发展的强有力保障。新的数据安全技术也将助力版权问题的解决。
(三)文化与艺术问题
AI绘画模型通过学习大量包含不同文化特征的图像数据,可以生成具有特定文化风格的作品。这一过程可能引发文化挪用的问题,尤其是当AI在未获授权或未充分考虑文化背景和意义的情况下,随意复制、再现特定文化元素时,可能导致对该文化的不尊重,甚至曲解其本质[45]。此外,如果训练数据集存在偏见,AI生成的图像也会带有这些偏见。例如,在使用一些AI绘画工具生成人物时,面部多以欧洲人的特征为主,而对非洲人或亚洲人的生成则相对较少或不准确。该问题的根源在于许多AI图像生成工具的训练数据集大多由西方国家的艺术和照片构成,故而其生成的图像偏向这些文化和人群。因此,AI绘画模型的训练需要更加注重数据多样性,以确保生成的作品能够尊重不同文化的背景与价值。
AI绘画技术正在对艺术市场和流行审美产生深刻影响。它能够快速生成大量作品,满足市场需求并降低制作成本,这使得更多人有机会欣赏和消费艺术。然而,这些作品良莠不齐,在繁荣艺术市场的同时,也在一定程度上对大众审美水准产生负面影响。以目前的技术水平和创作实践情况来看,AI作品往往缺乏人类艺术家独特的情感表达和深度创作意图,更倾向于形式化与技术化,这可能逐渐削弱艺术追求的深度和独特性。因此,艺术工作者不应盲目反对AI绘画技术的普及,而应积极拥抱并合理利用这一技术。通过将AI的生成能力与人类的创造性思维相结合,艺术家可以创作出兼具技术与情感深度的作品,进而引导大众审美,提升整体艺术审美水平。同时,随着AI绘画技术的普及,在其辅助下,将会有越来越多的艺术家以及潜在的艺术家成为AI绘画的参与者。未来的人机协作模式将使AI与创作者共同完成复杂的任务,AI负责高效处理重复性和技术性工作,而创作者则可以专注于创意和情感表达。这种协作不仅可以提升效率,还能扩大艺术创作的范围。例如,AI可以帮助艺术家探索新的风格和技术,让艺术作品更加丰富多样。
结 语
AI绘画作为科技与艺术融合的产物,不仅实现了绘画的自动化和智能化,还重新定义了艺术创作的边界。从早期的计算机制图到如今基于深度学习的图像生成技术,AI绘画技术在多个领域取得了显著的进展。Stable Diffusion、Midjourney等新兴软件的出现不仅为艺术家提供了新的创作工具,而且推动了数字艺术、设计和广告等行业的变革。同时,AI绘画技术的发展面临诸如版权争议、行业冲突等一系列挑战,这提醒我们在推动技术进步的同时,也要警惕其对艺术生态和社会文化的影响。
未来,人工智能技术的持续探索将带来更具可控性与个性化的生成工具,为创作者提供前所未有的自由和灵活性。AI绘画技术的演进与相关法律、伦理框架的完善将共同推动这一新兴艺术形式的蓬勃发展。人类艺术家与AI工具的协作将在数字艺术领域继续发挥重要作用,在人机交互中碰撞出更多科学与艺术的火花。
(为阅读方便,略去引注。)
*本文系国家资助博士后研究人员计划“面向AI绘画技术的理论研究与教学实践”(项目编号:GZC20231322)、教育部社科基金一般项目“面向视障用户的触听觉融合交互界面设计”(项目编号:23YJCZH092)的阶段成果。
李鸣超:清华大学美术学院助理研究员
徐迎庆:清华大学长聘教授、清华大学未来实验室主任
责任编辑:李骐芳
-
阅读原文
* 文章为作者独立观点,不代表数艺网立场转载须知
- 本文内容由数艺网收录采集自微信公众号艺术评论杂志 ,并经数艺网进行了排版优化。转载此文章请在文章开头和结尾标注“作者”、“来源:数艺网” 并附上本页链接: 如您不希望被数艺网所收录,感觉到侵犯到了您的权益,请及时告知数艺网,我们表示诚挚的歉意,并及时处理或删除。