作者stpiknow (H)
看板Patent
标题[新闻] Midjourney与Stability AI扩散模型自动
时间Wed Jun 21 09:00:41 2023
Midjourney与Stability AI扩散模型自动生成引爆着作侵权疑云?——图形影像篇
https://bit.ly/3NDTPk7
近半年来,不论在网路上的搜寻量、新闻媒体热度,抑或是研讨会的主题,只要和
ChatGPT或「生成式AI」(AIGC: AI Generated Content自动生成)扯上关联就有讨论不
完的话题,这也连带地牵动AI对未来产业的新兴变革。2021年6月,OpenAI发表了一篇标
题为「Diffusion Models Beat GANs on Image Synthesis」(扩散模型在影像合成上打
败对抗式生成网路)之论文,内容中的「Diffusion Model」(扩散模型)是自动生成文
句、图像、音乐的要角,本文将先从扩散模型运用到文字生成图像的整体架构,做简单的
说明,然後论及目前所衍生着作权抄袭侵害方面的法律议题。
制作经营桌游工作室 Incarnate Games的Jason Allen,2022年透过Midjourney创作了一
幅超逼真的图像作品《太空歌剧院》(Théâtre D’opéra Spatial)画作(见图一),
在美国科罗拉多州博览会的艺术竞赛中,获得数位艺术类别蓝丝带首奖。尽管该作品是由
AI创作,并非作者自己一笔一划绘出,但是该作品饶富巴洛克风格,令人难以相信这是由
AI自动生成的画作。
https://imgur.com/a/r22HS9u
图一、Midjourney创作《Théâtre D’opéra Spatial》
来源:Jason Allen via Discord
一般来说,目前AIGC广被应用的模型可分成两大类,一种是藉由文字指令提示
(prompting) 就可生成图像的AI模型,例如目前最为为熟知的Midjourney、Stable
Diffusion、DALL-E2或Google Brain;另一种则是藉由提示图像来生成文字的AI模型,例
如CLIP(Contrastive Language-Image Pre-Training,这是一种对比学习,将图像与文
字做连结後进行预训练,待下一张新的图像输入至CLIP後,CLIP就能根据图像中的情境去
「看图说故事」)。
基本上,後者比较不会有争论,因为要从图像自动生成一段短文,基於其所进行之网路上
的文字接龙,在着作权法允许参考他人「概念」却做出不同「文字表达」情况下,似可稀
松平常地用不同内容的一段话来表示,所以相对较不致有模仿或抄袭的争论(参本刊之前
曾报导:AI聊天机器人ChatGPT引爆着作侵权疑云?-- 文字篇)。然而,目前争议较多的
是前者,因为生成的图像,大部分来自在网路上曾公开出现的图片,而将其做为训练集所
生的结果,图片本身经AIGC处理虽非单纯复制贴上的运作,但在布局、感观、结构上,仍
可能「残存」某种程度上的「关联性」,故可能衍生「整体风格上」之相似度,而导致抄
袭模仿之争论。美国日前爆出几位艺术家对AI自动生成图像工具供应商:Stability AI(
开发Stable Diffusion图像软体)、Midjourney和DeviantArt三家公司起诉,指控这些被
告用扩散模型(Diffusion Model)来训练其AI机器学习,侵害彼等之着作侵权,就是此种
类型。
AI扩散模型自动生成之技术介绍
任何的AI模型训练都会经过编码的程序,因为对电脑而言,它只懂0与1所组成的数位资讯
,或者说它只读取数值型态的资料。若单纯地给予电脑成千上万张的原始图像作训练,电
脑是无法读取或运算的,更别提会有「歌剧院画作」。因此,AIGC第一步就需要对图像编
码。关於编码请参考图二,兹先介绍一种名为自动编码器(autoencoder) ,用於非监督式
学习的类神经网路。
https://imgur.com/aAA0mMs
图二、自动编码器(autoencoder) 的架构图
来源:笔者自绘
自动编码器的目的在於,输入端的图像(如图二中所示的黄金猎犬)与在输出端的重建图
像实质上应一致或相似。可惜事情没想像中那样简单,如只是单纯输出就等於输入的结果
,那就失去设计自动编码器的意义。原来资料科学家是利用它来降低资料维度并提取特徵
,其功能类似於特徵工程中的PCA(principal component analysis,主成分分析),虽
说中间过程可能造成有损资料压缩(lossy compression),但这样反而更能降低如记忆体
、运算复杂度等训练成本,而且增设自动编码器做AI模型训练的效果比PCA来得更好,这
也是它在深度学习的领域中,始终扮演不可或缺的角色。
而当输入一张黄金猎犬图像後,由於电脑本身不懂图像的意义为何,所以此时需要透过编
码器,来处理黄金猎犬图像中的每个像素(pixel),好让电脑对每个像素做读取与运算,
所以需将每个像素做编码,而这编码就是电脑最擅长处理的数值型态之向量,例如像素
X1 = (1,0,0,0)、X2 = (0,1,0,0) 、X3 = (0,0,1,0) 、…、Xn = (0,0,0,1),当然这只
是简单举例,实际编解码的运作包含机率分布等极复杂的数学问题,就不在此一一说明,
读者们只要掌握AI的运作概念即可。至於为何要将每个像素编码成为数值型态之向量?其
实概念上,就是利用「余弦相似度」(cosine similarity),去找出哪些图像与使用者所
输入的语义最相似,若余弦值等於1就判断为最相似,若等於0就判断为最无关,也就是说
,余弦值越接近1就代表两者越相似。
重点来了,经过编码器之後就开始透过类神经网路的训练,然後再将运算後的资讯,映射
至一潜在特徵空间(latent feature space),好让图像特徵与权重(weight)等资讯保存。
也就是说,在潜在特徵空间的资讯虽然都被压缩,但却能代表输入之前原始图像的大部分
资讯,这将使得解码器对潜在特徵空间的资讯进行解码时,可用低成本训练,并重建与原
始图像相似的图像。
接着,就进入扩散模型的精随,请见图三。假设图三中的原始图像X0为64*64像素,进行
扩散模型时可分为二大阶段。首先,执行所谓的「向前扩散过程」(Forward Diffusion
Process),即原始图像X0透过加入高斯杂讯後,陆续形成图像X1、X2、…、XT,也就是说
,原始图像X0会越来越模糊,直到成为图像XT,此时肉眼几乎已看不清原始图像X0的面貌
;接着,再进行所谓的「逆向扩散过程」(Reverse Diffusion Process),其目的不仅是
为了去除杂讯,将图像XT重建回原始图像X0,而且还可提升比原始图像X0还要高的画质。
https://imgur.com/hmCWvc7
图三、扩散模型运作的示意图
许多人可能难以理解为何加入杂讯後,不仅可以还原图像,而且画质反而更好。试想一种
情境,读者自己就是AI,在进行「向前扩散过程」时,当你看到一只黄金猎犬,此时若拿
一张雾面玻璃置放在你和黄金猎犬之间,想必可轻易辨识出该雾面玻璃後就是黄金猎犬;
若再拿第二张雾面玻璃置放其间,你也许还可辨识出二张雾面玻璃後是黄金猎犬,只是辨
识开始略为吃力;以此类推,直到你和黄金猎犬之间被放置N张雾面玻璃後,你将越来越
难辨识N张雾面玻璃後的物件,但经过前面多次的辨识经验,你隐约可以根据影子的轮廓
、大小、深浅等「特徵」辨识或猜测出N张雾面玻璃後的物件就是黄金猎犬。
至於进行「逆向扩散过程」时,基本上就是对AI验收学习成效,有点像是对AI下一道考题
:「请根据刚刚辨识特徵的经验,学着用自己理解的方式画出来」。需说明的是,就扩散
模型的数学理论而言,AI真正进入学习阶段是在「逆向扩散过程」,这时的AI开始「临摹
」上一阶段所学习到辨识特徵的经验,然後开始自动生成与原始图像相似的图。甚至於,
透过一些参数的调控可决定生成图像的相似度,当然这样生成的图像也可脱离原始图像的
内容,即便新生成的图像内容可能与原始图像不太相近,但仍会残留原始图像的风格[1]
。
图四为扩散模型应用在文字生成图像的示意图。透过使用者输入的指令,例如golden
retriever, cozy, sit on the grass(黄金猎犬、惬意、坐在草地上)等文字,输入至
文字编码器并进行文字嵌入(text embedding),将文字转成数值型态之向量後,再传送到
图像产生器。此时的图像产生器根据该文字嵌入,并从已经学习过的成千上万张与
golden retriever, cozy, sit on the grass等文字有关的图像中,自随机图像资讯中随
机抽取,接着图像产生器利用扩散模型去抓取和golden retriever, cozy, sit on the
grass等文字对应相关的图像後,透过加入高斯杂讯与去除高斯杂讯後进行图像的自动生
成,最後将其拟合後的结果,透过图像解码器自动生成「黄金猎犬惬意地坐在草地上」之
图像。需特别说明的是,透过使用者所输入的文字指令提示抓出的各种图像,对AI来说都
各自对应一机率分布,透过运算多种机率分布後,拟合成「黄金猎犬惬意地坐在草地上」
这样图像。当然,这样新生成的图像不仅可能与原始训练样本的内容有所不同,而且影像
品质还会更丰富锐利。这也是OpenAI为何发表「Diffusion Models Beat GANs on Image
Synthesis」(扩散模型在影像合成上打败对抗式生成网路)论文之原因。
https://imgur.com/B7lRgq2
图四、扩散模型应用在文字生成图像的示意图
来源:笔者自绘
顺便一提,有些专家会将其和「变分自动编码器」(Variational Autoencoder,以下简
称VAE)做连结,二者都是基於学习数据的机率分布,并从该分布中生成自动生成图像。
不同的地方在於,VAE将数据编码为一个低维的潜在特徵空间(如图二所示),并进行各
种如插值或向量运算,尽管VAE容易做模型训练,但生成的结果往往不太理想;至於扩散
模型,并不直接产生一个潜在特徵空间,它是透过加躁的前向过程与去躁的逆向扩散过程
,达到自动生成图像,这种方法通常能产生非常逼真的图像。
AI扩散模型自动生成着作侵权之法律判断
大致介绍完扩散模型与文字图像自动生成的原理後,紧接着来讨论这些新兴科技的背後所
衍生出的法律争议(本刊之前曾报导:OpenAI与微软之ChatGPT AI自动生成引爆着作侵权
疑云?-- 开源码软体篇),而其中最令人惊艳的,莫过於以文生图或以图生文这样的AI
工具,让使用者轻松透过指令提示,产生其想要的图形影像,用在工作和娱乐方面。但是
随着Midjourney、Stable Diffusion等知名图像生成工具广受世人使用以来,这其间也衍
生了艺术家控告Stability AI和Midjourney侵害其着作权的诉讼案件(Andersen et al
v. Stability AI Ltd. et al),但本案最具争议的是,原告於起诉状中承认:为回应特
定文本提示,Stable Diffusion所生成的图像,通常不会与原训练资料中的任何特定图像
完全匹配,这是因为在生成过程中,使用条件资料来插入多个潜在图像,因此生成的混合
图像,不会与训练资料中任何被复制的图像完全相同,故而是侵犯及原告画家的「风格」
,以下就加以介绍。
众所周知,要让AI机器学习能够理想地被应用在实际场景,当然需要不少的训练样本,而
这件侵权诉讼中最备受争议的,当然就是利用原生文字和图像等训练样本所自动生成的文
字或图像。虽然到目前为止,ChatGPT和Midjourney等工具提供者都未揭露,其究竟系如
何取得训练资料後建立dataset?一般合理推测是,他们应该是利用网路爬虫(web
crawlers)撷取技术,抓取公开的大量资讯内容;其次,它又如何自动生成文字与图像?
根据前述的扩散模型,让AI透过已取得的训练资料集而反覆自我学习,然後自动生成文字
或图像。
Google Search Engine与书本搜寻资料库
先谈第一点其如何取得训练资料集。理论上,生成工具开发商可透过付费方式,向各资料
库供应商获取素材。然而,众所周知,生成工具开发商难以向所有各式各样的数据源资料
供应商采购,这是基於成本考量,所以许多知名科技公司舍弃透过正规的采购管道取得授
权,而是直接利用网路爬虫技术,从网路上撷取各种资讯,虽然未必是最有效率的数据取
得方式,但这毕竟是最省成本的方式。
然而,未经授权在网络上大量使用他人具有着作权的资料,是否即构成着作权侵犯,仍需
要进一步检验。换句话说,未经同意使用他人的资料不一定立即违法,关键在於使用者对
他人素材的再利用後,最终呈现的内容是否构成侵权。针对此,大家最熟悉的例子之一,
就是二十多年前的Google搜寻引擎。当时Google的做法,就是在网路上收集大量资料,然
後透过提供URL(Uniform Resource Locator)连结的方式,将浏览者引导进入特定网站,
以查看他们所需的资讯。
依照Google搜寻引擎的运作模式,虽然在运作过程中涉及大量的资料重制,但在重制完成
後,通过提供URL连结的方式,该网站并未留存包含具有着作权之「表达性的内容」。因
此,这种运作模式实际上,反而是帮助读者更方便地进入原始内容的网站浏览。虽然这种
模式涉及中间过程的复制行为,但最终呈现的结果并不侵犯着作权。类似的情况也出现在
资料探勘中,使用者收集各种资料,但最终的呈现方式,可能同样不会导致侵犯着作权的
结果。
以机器学习方式进行语料资料库学习过程是否违反着作权法?美国作家协会(Authors
Guild of America)与多名作者於纽约联邦地院控告Google,指控Google Books corpus之
搜寻引擎资料库(Google Book Search Database),未经授权重制扫瞄数百万有着作权书
籍,以增强其Google Books自然语言处理(natural language search),透过显示关键字
搜寻之「Snippet View」运作,会秀出环绕在所搜索字词旁之原文内容,让读者看到书中
部分文字片段,已构成着作权钜大侵害。但2015年美国第二巡回上诉法院全部法官同意,
Google创设之数位化书籍搜寻引擎功能,纵使未经授权亦未付费,但Google Books为作者
提供一种途径,帮助潜在读者了解并找到该作品,不仅促进知识扩散之公共利益,更可增
加读者数量,提供连结让读者易於找到该作品增进书籍销售,从而为作者带来利益,其复
制书中内容行为属於高度转化性目的(highly transformative),故属於「非侵权之合理
使用」。简而言之,因为复制後简示之结果构成合理使用,因此其前段中间过程之复制即
毋庸再议了。
重点在最後呈现的结果而非中间复制行为
这些例子显示,当业者提供新科技的产品或服务时,即使在过程中确实存有他人着作的重
制行为,但是否违法端视最後呈现的结果,是否形成对资料合理使用的情形,例如可促进
人类文化知识扩散或达到公共利益来决定。也因此,在评估AI自动生成工具时,其运作过
程中所进行的中间复制行为,似乎就不是法律应关注的重点,而必须将焦点集中在最终呈
现的结果上。
其次来谈,其系如何自动生成文字与图像。扩散模型自动生成内容的情况是否构成侵权,
在法律上尚待检验。在本件艺术家所提出的集体诉讼中,原告指控Midjourney等未经授权
使用其具着作权的大量画作,做为被告AI机器学习的素材。然而,本案与一般的着作侵权
案件有所不同,因为大部分侵权案例中,原告必须证明被告实际上,究竟抄袭了原告哪些
作品的哪些部分,需要进行比对以确定二者之间是否存在「实质相似性」,从而判定其是
否侵权。基於前述的扩散模型的运作方式,透过高斯函数加入高斯杂讯和去除高斯杂讯,
从正向再到逆向过程中以AI机器学习藉此提取特徵,该扩散模型可将所有蒐集的相关图像
素材「打散重组」,并掌握原生素材的特徵後,再揉合重新自动生成新的图像。
扩散模型与风格上之近似
然而文题是,这些新图像与被作为训练样本的原生素材,不会构成完全相同或近似,只能
说本质上提取了训练样本的许多特徵,导致扩散模型操作下所生成的新图案,在风格上产
生所谓的近似,但这种「风格上的近似」,并不是具体基於图画中哪一部分在「一对一」
比较下构成相似,而是就整体呈现「感观上之风格近似」!因此,这正是本案中的重要争
点,即最後呈现的结果是否构成侵权,不是基於比对的实质相似性。法律上对於这种创作
过程中的复制行为,是否构成侵权?还需要进一步检验。
正因为如此,即使原告艺术家的律师在起诉状中未能具体指责,被告自动生成工具所产生
的图像中,究竟哪几幅与原告创作之哪几幅绘画作品,可一对一点出二者类似之处,反而
只能抨击被告之工具生成内容,在「风格上」与原告作品产生雷同!这是因为被告生成工
具将各艺术家所有的作品,透过扩散模型运作产生与该画家近似之独特风格,亦即使用者
只需提供该画家的名字作为指令提示输入,AI便能自动生成该画家风格的画作,这种风格
上的相似性,已经使传统绘画抄袭的概念产生了质的变化。在新兴科技发展的背景下,这
对於着作权应该涵盖的范围和保护内容产生了重大挑战。
我们可以这样理解,以往原被告的系争画作究竟是否造成实质相似,其实都可以进行客观
具体的比对分析。但对於AI机器学习与扩散模型所产生的作品而言,系争画作所谓风格上
的模仿,可能就难用一对一比较来评断各项元素或其组成是否相同,况且,风格本身是否
受到着作权保护?各国司法实务上并不确定。一般而言,各个画家都有其独特的风格,但
风格本身是一种抽象的描述。按着作权和专利有着基本原理上的差异,专利讲求「只此一
家、别无分号」的绝对垄断;而着作权却是站在推广文化的角度,允许大家可参考别人的
概念或构想,来创作出基於相同概念、但具有实质不同之表达的内容结果,从而促进人类
的文化发展。
因此,各国的着作权法都会规定,人类思维的构想或概念本身,并不是着作权法要去保护
的对象,而必须是作者根据该种概念具体书写或画出实际内容,才受着作权法保护。基於
此,着作权法规定其保护仅及於该着作之表达,而不及於其所表达之思想、程序、制程、
系统、操作方法、概念、原理、发现,而在这种情况之下,可能有些人会认为,所谓风格
也者,或许应落入思想、概念,而不是着作权法应该要去保护的对象!
然而,是否可以将所谓之风格,一竿子打入所谓不受保护的范围,这是值得商榷的!因为
所谓的绘画风格,是指画家个人艺术表达的总体特徵,以突显该画家的辨识度和独特性。
它是画家在创作过程中运用笔法、构图、线条、色彩、光影、比例、角度、空间透视和笔
触等绘画元素的独特运用方式,形成其个人美学上独具特色的表达。这种风格完整体现了
画家的总体艺术观念、情感表达和个人经验,并呈现出其对审美的独特而鲜明的诠释。同
时,也反映出画家内在涵养与个性的综合体现,使人能一望即可辨认系出自何人之手。其
成为观者欣赏、理解和评价其画作的重要指标,并为作品赋予独树一帜的标志性意义和价
值。
风格上近似之着作侵权议题
我国智慧财产法院,虽未直接就作品的风格是否受着作权法保护表达见解,但依其实务上
的观点,不论就作品之风格特徵、表达风格和创作风格等都可作为评估之参考因素。而在
判断是否构成侵权时,法院对两造争议的着作所进行之比对,亦可能包括整体风格、特定
段落之编辑方式是否相同来认定;甚至在个案中法院认为,会考虑一般设计者常有的处理
方式,例如特殊物件的实际应用、相对抽象风格呈现方式、物件的摆设位置以及其他物件
之间的相对位置和关系等,都是判断是否存在抄袭的重要因素;甚且,纵使二造都采用相
同的风格设计,但如在描绘图案设计细节和所传达给读者的整体感受上存在明显差异,两
者即不构成实质上的近似。
在这种情况下,风格的呈现会连动到作者在其作品所呈现重要元素,例如针对绘画中的布
局或安排、色彩的运用、画作的结构、组成和各元素彼此间所呈现的互动或安排等,都会
反映出作者的独特风格,因此,如有人将作者构图中不同元素,用不同的内容来替代转换
,但在整体感官上,如残留该画家既有可表现出其作者属性、特徵或相关组成及各元素间
的相互安排关系时,此时可否据而认定这些呈现风格的元素、布局、安排、结构、组成等
都不受着作权保护,就有商榷的余地!
因此,在评估着作权是否构成侵害,似不应一概而论地将所谓的风格,速断认为是不受保
护的构想或概念加以摒除,而必须依具体个案来做实质的判断,也就是说,当原告指控被
告在「风格上」与其近似时,那就必须让原告来举证,究竟其哪些风格之内涵与被告遭指
控的内涵,二者间存在相似度,按照着作权法原则,具体衡量二者之间是否构成实质相似
进行比对判断,如原告未能具体一一指控系争风格的元素,则徒然空言系风格上近似云云
,自然无法取得胜诉。换言之,最终仍应针对具体之侵权个案来判断 (case by case
basis)。而美国案例法上,基於风格近似较属抽象正反看法都有,当然也看个案事实中风
格究何所指再予认定。
总之,扩散模型的问世,带来了新兴科技对於着作权传统判断原则的挑战。在法律上应如
何处理这些挑战,除非进行相应的法律修订,否则需要法院根据现行法规范予以审慎处理
。因而本案日後之判决结果,备值关注。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 203.145.192.245 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Patent/M.1687309243.A.962.html