作者stpiknow (H)
看板Patent
标题[新闻] 全球首宗音乐出版商控告生成式AI Claude
时间Fri May 24 11:43:38 2024
全球首宗音乐出版商控告生成式AI Claude着作侵权案
原文网址:
https://bit.ly/44WTW1x
原文:
ChatGPT自从2022年底问世後在全球大放异彩,但江山代有才人出,时隔一年多在大型语
言模型赛道中,後起之秀Claude 3聊天机器人曾超越GPT-4,登上最强AI模型排行榜冠军
,被誉为可打败GPT-4之最强的LLM!但人(Chatbot)红是非多,与OpenAI不断被告一样,
Claude也引发生成式AI的侵权官司:Concord Music Group, Inc. et al., v.
Anthropic PBC,这是全球第一件涉及生成式AI与音乐产业的侵权案例。
美国三大音乐出版商(包括Concord、Universal和ABKCO)和多家音乐出版商,於2023年
10月中在田纳西州中区地院纳许维尔分院(Nashville为着名音乐城市被誉为音乐之都)
,起诉Anthropic(以下称被告)指控其非法复制出版商拥有的歌词文本,来训练、建构
和营运其AI模型Claude,生成与受着作权保护的歌词作品相似或相同的文本,大量散播侵
犯原告音乐作品着作权,寻求7500万美元赔偿 [1],出版商并申请法院颁发永久禁制令
(permanent injunction),拟禁止侵犯出版商的着作权。
一、本案起诉背景
原告等是八家知名的音乐出版商,包括Concord Music Group、Capitol CMG、Universal
Music、Songs of Universal、Universal Music、Polygram Publishing、Capitol CMG、
ABKCO Music等(以下统称出版商或原告)。本案涉及Anthropic所开发名为Claude的AI模
型,原告主张,除非获得授权否则任何人不能复制、散布或展示他人具着作权的作品,来
建立自己的业务,此一法律基本原则一再经历无数新兴科技的迭代发展而仍得适用,该原
则不会因为将侵权行为包装为「AI」而随之消失;就像其他技术开发一样,从印刷机到影
印机再到网络爬虫(web-crawler),AI业者必须守法。
原告主张,近几年AI技术爆炸性的发展,尤其对音乐产业带来突破性的影响力,然而,这
些技术进步不能以牺牲创作者做为代价,AI技术应以合乎道德和负责的方式,来开发和应
用AI工具所带来的巨大潜力,以保护出版商和词曲作者的权利、谋生方式和整个创意生态
系统,但Anthropic为了营运AI模型,竟大规模非法复制和散播受着作权保护的音乐歌词
,或将这些歌词用AI模型作为输入或输出。出版商遂提起本案,以解决Anthropic对歌词
着作权系统性的广泛侵权。
二、Anthropic营运与Claude AI模型提供方式
Anthropic是一家美国德拉瓦州公司,从事开发、营运、销售和授权AI技术,由前OpenAI
高管 於2021年创立,并获得Amazon、Google、Zoom和Salesforce等公司数亿美元投资,
虽然才刚成立,但据报导Anthropic估值已高达50亿美元,并获得超过73亿美元的资金,
号称是OpenAI最大的竞争对手。
原告指控,Anthropic未遵循合法途径之市场机制,支付费用取得正当授权,而是从网路
上大量抓取出版商受着作权保护之材料经营业务。这种擅自非法复制和散布的行为,剥夺
歌曲创作者的创意成果,其不仅从侵犯出版商作品中获取丰厚不当利益,还与那些合法支
付授权费的业者进行不公平竞争,不但严重破坏授权市场机制、损害音乐创作,更侵蚀作
品的艺术、文化和经济价值。
Claude AI模型系一种通用大型语言模型(LLM),Anthropic从网路和其他来源,撷取复制
各种大量文本输入模型,建构高达数十或数百亿个字词之庞大语料库以「训练」Claude,
并基於这些复制的文本产生输出。而Anthropic为其模型复制庞大的文本中,包括出版商
无数受着作权保护的歌词作品。因此Claude才能以接近人类智慧的方式,对使用者的查询
提供基於文本的回答。
Anthropic以二种方式提供其Claude AI模型:经由Anthropic网站上的聊天介面,以及透
过商业应用程式介面(API)客制化的第三方客户端软体,和Claude AI模型互动。一方面,
,Anthropic在网站上为个人使用者,提供Claude 2 作为「聊天机器人」的造访权限,该
机器人以AI生成对话式的答覆,来回应使用者提示的问题指令,Claude分为付费订阅版和
有限的免费版。另一方面,Anthropic透过API将Claude模型出售或授权给商业客户,以便
将Claude整合到客户的软体和系统中。当客户使用Anthropic API将提示输入到其软体时
,该软体会将提示传送到Anthropic伺服器,再将其作为输入传递到其AI模型,然後伺服
器将模型的回应传送回客户软体。
三、开发Claude AI产生文本之步骤
原告指控,由於Anthropic透过大规模复制向其底层模型喂入大量文本,Claude模型才得
以用类似人类对话方式来回应使用者的提示。但Anthropic并未以自行开发或经授权的文
本来训练其AI模型,而是非法从网路上收集复制这些受保护的歌词,作为其AI模型的文本
输入,Anthropic透过以下步骤来「训练」其Claude AI模型产生文本:
首先,Anthropic直接从网路和其他数位来源,使用网路爬虫(web crawlers)等自动化工
具,透过「爬取」(即复制或下载)复制大量文本(或透过第三方由网路抓取材料),将
其下载到Anthropic伺服器上,这些大量文本收集形成Claude模型的输入称为「语料库」
(corpus),然後该模型在此基础上进行训练。
其次,Anthropic对复制的文本进行「清洗」(clean),以删除与其业务模式不一致的材料
,这可能包括出於技术或主观上的原因,例如重复删除数据(deduplication),但大多数
情况下Claude这种「清洗」过程,完全忽略复制文本中可能涉及之着作侵权材料。
再者,Anthropic将先前复制文本之庞大语料库存到电脑记忆体中,并以这些数据来训练
Claude模型,建立成该模型的数十亿个参数值。这其中包括收集文本之复制与划分,并将
其转换成称为「断词」[2](tokens)的单元,这些断词是单词或是文字和标点符号的一部
分,以便进行储存,此即将文字「编码」(encoding)为断词之过程。对Claude而言,平均
断词之长度约为3.5个字符(characters) [3]。
最後,Anthropic透过进一步处理数据,根据人类及AI的回馈,当对Claude AI模型进行「
微调」(finetuning)和「强化学习」时,Anthropic就其所收集文本会要求另外的复制。
一旦该输入和训练过程完成,Claude AI模型生成的输出在结构和风格上,与其训练语料
库中的文本及强化回馈(reinforcement feedback)一致。当使用者下提示时,Claude会根
据其模型作出回应,而该模型是其在大型文本语料库进行「预训练」和「微调」的产物,
包括基於人类回馈的强化学习而形成。在此处理过程中,Claude系使用断词形式的文本,
但输出是普通的可读文本。
四、Anthropic非法利用出版商的作品
出版商指责Anthropic以下列几种方式,非法利用其作品:
(一)、Anthropic大规模复制出版商受着作权保护的歌词,作为其AI模型初始数据中的
一部分,用於建立数据以训练其AI模型的程式设计。虽然Anthropic利用从网路上收集的
大量文本支援其AI模型,然而,某些内容可在网路上取得,并不代表Anthropic可以免费
擅加利用其来达到私利之目的。此外,Anthropic在很大程度上,还隐藏其用於训练AI模
型文本的具体来源 [4]。
Anthropic在训练AI模型时,大幅依赖如Common Crawl数据集 [5],其包含来自流行歌词
网站(像是genius.com、lyrics.com和azlyrics.com等)拥有庞大内容数据集之大型文本
收藏 [6]。此外,该模型根据使用者提示作出回应,产生与出版商受保护之歌词相同或几
乎相同的副本(详下述),这清楚显示,Anthropic在开发时向模型提供这些歌词的副本
。在训练过程中,Anthropic必须复制这些歌词并透过模型处理,以便模型随後将歌词的
副本作为输出进行散播。
(二)、Anthropic在清洗、处理、训练和微调其AI模型所撷取的资料时,包括在对数据
进行断词化(tokenizing)作业时,会产生未经授权之出版商受保护歌词的复制。尽管
Anthropic会「清洗」其摄取的文本,以删除带有攻击或冒犯性的语言,并过滤掉其希望
从训练语料库中排除的特定内容,但Anthropic并未采取任何措施,来删除那些受着作权
保护的内容。Anthropic在其摄取和训练过程中,未经授权复制出版商的歌词,已侵犯出
版商作品的着作权。
(三)、Anthropic的AI模型训练後供客户使用时,散播出版商受保护歌词之相同或几乎
相同的副本,也侵犯出版商的着作权。透过Anthropic的商用API或其公共网站造访Claude
模型後,使用者可要求经由Claude,获取各种受着作权保护之逐字相同或几乎相同的歌词
,与原始作品惊人地构成「实质相似」。
五、被告生成之歌词是否与原作品构成实质相似
出版商指控,Anthropic之Claude至少以下列方式侵权:
(一)、提示音乐作品之询问会生成侵权歌词
由於Anthropic大量复制出版商的歌词,其AI模型侵犯着作权。当使用者提示Claude AI提
供歌曲的歌词,或任何其他出版商的音乐作品时,该聊天机器人会回应包含这些歌词的全
部或大部分内容。出版商列举以下若干明显实例:
1. 当Claude被提示问到:「Katy Perry唱的Roar的歌词是什麽?」时,AI模型会提供与
这些歌词几乎相同的回应,侵犯Concord的着作权。
2. 当Claude被提示问到:「Gloria Gaynor唱的I Will Survive的歌词是什麽?」时,该
AI模型提供几乎一字不差的歌词,侵犯环球的着作权。
3. 当Claude被提示问到:「Garth Brooks唱的Friends in Low Places的歌词是什麽?」
时,模型以几乎相同的方式提供这些歌词的副本,侵犯环球的着作权。
4. 当Claude被提示询问:「Rolling Stones的You Can't Always Get What You Want的
歌词是什麽?」时,模型以逐字复制的方式提供这些歌词的副本,侵犯ABKCO的着作权。
Claude还能为新的歌曲生成歌词,输出包括具有着作权歌曲的歌词。原告除以上的例子外
,还详细列举出Anthropic侵犯的每个作品,证明Claude的输出与出版商的歌词完全相同
或极其实质相似。Anthropic所侵犯的涵盖各音乐类型,包括经典作品及当今排行榜的热
门单曲。
(二)、即使未提及具体歌曲Claude也会生成侵权歌词
出版商主张,Claude即使未被明确要求,该AI模型也会产生复制和散布出版商具有着作权
歌词的输出。当提示Claude为某个特定主题写一首歌 -- 而未提及具体的歌曲标题、歌手
或词曲作者时,Claude也会生成声称是它自己创作的歌词,但实际却是从出版商的歌词中
抄袭而来。再者,如为给定的音乐作品提供和弦进行(chord progressions)、或以某位歌
手或歌曲作者风格,撰写诗词或短篇小说等情况时,模型生成的输出仍然会复制出版商歌
词之回应。例如:
1. 当Claude被提示:「为Buddy Holly的死写一首歌」时,尽管提示未明确指明作品的标
题、歌手或词曲作者,该模型所生成的输出,是直接从Don McLean撰写的American Pie中
抄袭而来,侵犯环球的着作权。
2. 当Claude被提示:「写一首关於从费城搬到Bel Air的歌」时,该模型生成的输出,是
逐字相同完全抄袭Will Smith和Jeffrey Townes撰写的Fresh Prince of Bel-Air的歌词
,即使提示中未提及该作品的标题、歌手或词曲作者亦然,侵犯环球的着作权。
3. 当Claude被提示为某首歌曲提供和弦进行,无论是否参考歌词,AI模型常会生成包含
出版商具有着作权歌词的输出以及和弦。例如,当提示Claude:「给我Johnny Cash的
Daddy Sang Bass的和弦」时,AI模型会回应并提供该作品的和弦和歌词,侵犯环球的权
利。
(三)、Claude被提示歌手或作者的风格也会生成侵权歌词
此外,当Claude被要求以某位歌手或词曲作者的风格,创作其他类型具有着作权之作品例
如诗歌时,该AI模型也常会做出回应,产生直接从出版商的歌词中抄袭而来的输出。例如
:
1. 当Claude被提示:「以Lynyrd Skynyrd的风格写一首诗」,而未提及任何特定的音乐
作品或歌词时,AI模型的回应是提供Sweet Home Alabama几乎逐字相同的歌词,侵犯环球
的权利。
2. 当Claude被提示:「以Louis Armstrong的风格写一个短篇小说」时,AI模型的回应是
抄袭What a Wonderful World的歌词的大部分内容,侵犯Concord的权利。
换言之,Anthropic不仅在回应特定要求时,会侵犯出版商具有着作权的歌词。甚者,一
旦Anthropic复制出版商的歌词作为输入以训练其AI模型,这些AI模型就会复制并散布出
版商的歌词作为输出,以回应与歌曲和各种其他主题相关之广泛的一般查询。
六、Anthropic有能力进行防护与控制
原告主张,Anthropic有能力将出版商的歌词,从其训练语料库中排除,以防止其AI模型
对这些受着作权材料进行训练和利用。如上所述,Anthropic能「清洗」其所摄取的文本
,删除冒犯性的语言或过滤掉其中的敏感内容。但Anthropic却未采取任何措施,从其训
练资料中过滤或删除具有着作权的材料。
但Anthropic被起诉後,宣称其已实施技术防护措施,对使用者要求提供某些歌词的提示
,其AI模型会拒绝回应,并警告使用者提供这些歌词会违反「着作权之限制」。让使用者
无法再以指令使Claude提供受保护的歌词,例如当提示复制Katy Perry的《Roar》歌词时
,它会回答:「由於着作权限制,我无法提供Katy Perry的《Roar》完整歌词」[7]。
虽然Anthropic号称采取防护措施,其是否真的已全面防堵犹待检视,但原告认为这已清
楚表明,Anthropic的确可以「了解」其歌词输出违法,而且「有能力」防范生成复制他
人内容。亦即,Anthropic的确可用「防护栏」(guardrails) 编写程式到其AI模型中,以
防止模型回应某些提示,或生成复制出版商歌词具有着作权内容的输出。然而,尽管其知
悉且明显有能力对侵权进行控制,但Anthropic之前未实施有效的防护措施,以防止对出
版商作品的侵权。
七、Anthropic付费模式及其从侵权中获利
出版商指责,Anthropic透过AI模型利用出版商的作品从中牟利,其商业安排是向商业客
户收取造访使用Claude API权限的费用,分别采取「按字支付」(per-word)、「模型即用
即付」(pay-as-you-go model)的收费方式,每当客户透过API提交对出版商歌词的请求时
,或当API生成基於这些歌词产生复制的输出时,Anthropic都会从客户取费用;此方式既
基於最终使用客户向Claude API提交的文本数量,也基於模型生成输出的文本数量来计算
。换句话说,Anthropic的最终客户每次提交歌词的请求时,Anthropic都会收到报酬,而
且每当Claude API生成输出时,会再次收到报酬。最终,Anthropic的客户及最终使用者
对於AI模型用的越多,Anthropic获益也就越大。
Anthropic也透过其网站,提供其Claude 2聊天机器人版本给个人使用者,以实现商业化
的运作。虽然Anthropic最初免费提供Claude 2版本给使用者,但已开始限制免费使用者
的造访 [8]。此外,Anthropic推出Claude 2付费版 -- Claude Pro,针对个人使用者收
取每月20美元的订阅费来获利。尽管Anthropic将自己定位为AI「安全与研究」公司,但
从其使用侵权内容所建构之AI模型销售给客户中,获取可观的经济利润。
八、Anthropic自订的AI宪章表里不一
出版商抨击,Anthropic声称与其他AI企业不同,是一家AI「安全和研究」公司,并号称
其遵循所谓的「人工智慧宪章」(constitutional AI)程序原则,来训练Claude AI模型,
以确保这些程式「有益、诚信和无害」,从而使AI模型更有帮助且更少伤害。Claude宪章
的许多原则,似乎都强调避免「违法」和尊重「财产权」的重要性云云 [9]。
出版商对Anthropic所谓的「宪章」提出质疑,指出受着作权保护的材料,并不因为在网
上可容易找到就能随意免费取用,然而Anthropic却公然利用这些歌词开发和训练其AI模
型;正如Anthropic不希望该公司之程式码未经授权而被他人盗用一样,音乐出版商当然
也不希望其作品被窃用。然而,讽刺的是,Anthropic从未寻求取得授权,以使用出版商
有价值之作品;自己反而竟然还禁止他人使用其生成的内容用於相同的目的,根据
Anthropic之服务条款明确禁止:「开发或训练任何AI或机器学习演算法或模型」[10],
可见Anthropic是明显的「双标」。
九、出版商请求救济之法律基础
出版商主张,Anthropic的非法侵权行为,已导致并持续对出版商、词曲作者和整个音乐
界,造成重大而无法弥补的损害。Anthropic此种未经授权的使用,更已侵蚀授权市场机
制,损害那些合法取得授权歌词的汇总业者、网站和数位服务经营者,由於Anthropic的
AI模型使用者,不会再去造访那些为使用歌词付费的合法网站,因此Anthropic的侵权行
为,构成着作权作品的市场替代品。而Anthropic本有能力停止侵犯出版商的音乐作品,
并得停止鼓励、辅助和促成其使用者的侵权行为。但Anthropic为了不法牟利,直接和间
接侵犯出版商的音乐作品,以下为出版商提告之诉因。
(一)、直接侵犯着作权
Anthropic透过Claude的运作方式,非法利用出版商的歌词,既将其作为用於训练其AI模
型所使用的输入,又作为这些模型生成的输出,侵犯包括复制、基於出版商的音乐作品制
作衍生作品、向公众散布和公开展示的着作专属权利,因此,Anthropic构成对出版商已
注册着作权的直接侵害(direct copyright infringement),违反《着作权法》
106(1)-(3)、(5)和501条。Anthropic对出版商的音乐作品的每一次侵权,都是故意而构
成独立且明确的侵权行为。
(二)、辅助侵权和引诱侵权
Anthropic除了自己侵权之外,透过提供AI模型给使用者,导致用户在未经出版商的授权
下,因使用该模型而从事非法复制、向公众散布、公开展示或基於出版商的歌词制作出衍
生作品,使得该等「使用者自己」也构成「直接侵权」行为(但出版商未起诉任何使用者
)。这些使用者之所以侵权,完全系出於Anthropic故意以侵权内容训练其AI模型所致。
作为其AI模型的输入和输出运作,Anthropic完全知悉透过其模型,提供予使用者让其提
示产生特定侵权之回应,从而造成使用者之侵权。
因此,Anthropic系促使、鼓励、引诱并实质上辅助、促成使用者完成这些侵权行为,包
括但不限於透过宣传推广其AI模型,透过其网站和API提供对这些模型的造访权限,以及
透过模型托管和传输已知的侵权内容。然而,Anthropic本有能力采取措施,不对特定的
侵权行为实质帮助其促成,其不此之图,反而收集包括出版商的着作权作品在内的训练数
据,为其AI模型的使用者提供直接侵权所需的网站和设施,并积极促成侵权行为的发生。
基於Anthropic之AI模型的使用者,直接侵犯出版商的音乐作品的着作权;而Anthropic透
过设计、营运和维护其AI模型,以促使其使用者侵犯出版商的着作权。因此,Anthropic
非法促成、鼓励使用者的侵权行为并从中获利,对其模型使用者的直接侵权行为,应负担
间接侵权之「次级责任」(secondary liability),包括「辅助侵权」(contributory
infringement)以及「引诱侵权」(inducing infringement)之责,侵犯出版商的着作权,
违反《着作权法》106(1)-(3)、(5) 和501条。
(三)、代理侵权
基於上述Anthropic的使用者构成直接侵权,而Anthropic具有权利和实际能力,可以监督
和控制其AI模型发生的侵权活动;其有能力对模型的开发和训练,控制模型的输入和输出
;其可以监控并检查AI模型是否存在侵权或其他非法输入和输出;其有能力改进和调整AI
模型,以处理或消除这些非法之输入和输出;其可以透过其网站和API提供AI模型的造访
权限,来控制和限制使用者,(包括根据其服务条款终止该造访);此外,其还可监看和
检查使用者与其AI模型间的互动,以监督和控制侵权活动,然而,Anthropic却故意漠视
继续侵权作为。
Anthropic从使用者透过使用其AI模型,侵犯出版商着作权的行为中,获得直接的经济利
益。但Anthropic拒绝采取合理措施,来防止其AI模型的使用者广泛侵权,由於此,造成
Anthropic的AI模型使用者侵犯出版商音乐作品的着作权。因此,基於该AI模型的使用者
构成直接侵权,Anthropic对出版商的音乐作品,应负着作代理侵权之责任(vicarious
infringement),违反《着作权法》106(1)-(3), (5) 和 501条。而依案例法着作之代理
侵权责任,必须指控被告(1)拥有监督侵权行为的权利和能力(right and ability to
supervise),以及(2)在侵权活动中获具有直接的经济利益。因此,出版商主张,
Anthropic对其AI模型使用者的这些直接侵权行为,应负次级侵权之代理责任。
(四)、删除或修改CMI
音乐作品的标题名称、作者姓名、着作权人姓名(作者有时非着作权人)、使用该作品的
条款和条件和其他识别资讯,都属於《着作权法》1202条保护的「着作权管理资讯」
(CMI: copyright management information)。当出版商将其歌词授权给其他的业者时,
通常需要使用歌曲之重要资讯来辨识这些歌曲,而这些都构成CMI。
但在训练过程到AI模型输出文本时,Anthropic故意删除或更改与出版商歌词相关的CMI,
或明知CMI已被删除或更改,在未经授权下散布出版商歌词的副本,因此,词曲作者常因
此无法被认知为作品的原作者,而Anthropic不仅删除CMI,并且还拒绝为创作者提供适当
的归属(attribution),以确保消费者了解歌词的来源,也违反着作权法。
举例而言,当Anthropic的AI模型产生出版商的歌词时,通常未附带相应的歌曲名称、歌
词作者或其他重要的CMI。例如,当Claude被提示:「写一首关於Born to Be Wild的歌曲
」时,AI模型回应Born to Be Wild(由Steppenwolf的Mars Bonfire编写)几乎逐字相同
的歌词,但未能透过歌曲名称、词曲作者或其他CMI来正确地识别该歌词,从而侵犯环球
的权利。
Anthropic的行为,不论是从出版商的音乐作品中删除或修改CMI,或明知CMI已遭删除或
修改,而散布或为了散布输入出版商音乐作品,均违反《着作权法》1202(b) 条。
十、被告第一回合之抗辩
(一)、欠缺管辖权驳回起诉
在此第一回合交锋中,Anthropic以本案欠缺对人管辖权(personal jurisdiction)和审判
法庭地点不当为由,向法院申请驳回原告起诉(motion to dismiss),并质疑本案是「一
种谈判策略」,原告目的是「伪装成联邦法院申诉」来获取巨额的授权费;Anthropic另
申请将法院转移到北加州地院管辖。辩称其既不受田纳西州中区的一般属人管辖权,也不
受特定属人管辖权的管辖,因其与田纳西州没有足够的「最低限度接触」,因此法院无管
辖权。
Anthropic抗辩,其Claude AI模型是「在旧金山创立、训练和开发」,虽然透过其网站和
API在全美提供这些模型,但其业务从未针对田纳西州,而原告的任何索赔请求都非源於
其在田纳西州的联系;且诉讼中提到的涉嫌侵权行为,例如训练其AI技术或提供使用者的
回应,都未发生在田纳西州境内。因此Anthropic认为,根据其服务条款中的法庭选择条
款,本案应转移到加州。
(二)、直接侵权之输出系原告自己所为之「自愿行为」
Anthropic指责原告违反Claude的服务条款,亦即使用者「不得要求Claude制作」受着作
权保护的资料而侵权,因为这不是Claude预期或允许的使用方式,故抨击原告自己参与并
促使Claude对歌词输出之直接侵权,系原告而非Anthropic所为之「自愿行为」
(volitional conduct),而一般「自愿行为」,必须证明被控侵权者对侵权内容具有控制
权。但本案却是原告自己「设计」出来对Claude「攻击」所致,这些输出是原告「刻意」
诱使模型做不应做的事,目的在引导出AI模型吐出侵权歌词,这并非由Claude使用者自主
性之输入而产生。
因此,实际上系由原告控制其所「宣称」的侵权行为,因而需对此负责。否则一般而言,
使用者不会像原告那样使用Claude,来使其吐出侵权歌词,故原告这种「特意展示」之生
成模式,不符合Claude之典型使用者要求输出的方式;通常人不会也没有必要这样做:因
为歌词可以从许多免费网站上获得。
(三)、原告无法证明弥补的损害与转化性的使用
Anthropic主张原告无法证明造成无法弥补的损害,指其缺乏证据表明,自Claude推出以
来原告歌曲授权收入下降,或者具「确定且直接」品质上的损害,因为根据定义,金钱损
害赔偿确实有一可量化和支付的代价,出版商认为金钱损失可使其回复,这与他们自己关
於「无法弥补的损害」的说法相矛盾。Anthropic声称,监於原告未足以证明无法弥补的
损害,「特别救济」的禁制令也不合理。
Anthropic还认为Claude的任何歌词输出,都是无意的「错误」(unintentional “bug”)
,现已透过新技术防护(technological guardrails)修复。特别是,Anthropic声称它已
对Claude实施额外的保护措施,以防止进一步显示出原告受着作权保护的歌词。由於被指
控的侵权行为不会再发生,因此原告要求阻止Claude输出歌词的救济请求,欠缺实际意义
。Anthropic表示:其设置护栏以防止Claude生成受保护的材料,如果这些措施在某些情
况下失败,那将是产品的「缺陷」,而不是「功能」。其还辩称,「没有证据」表明任何
Claude使用者「输入提示导致展示原告的歌词」。
最後,Anthropic抗辩,其使用原告的歌词来训练Claude是一种「转化性的使用」
(transformative use),为原作品增添「进一步的目的或不同的特性」;其行为对原告着
作权作品的合法市场没有「实质性之不利影响」(substantially adverse impact),并指
出歌词仅占训练数据的「一小部分」(a minuscule fraction),并且Anthropic主张
Claude之训练构成合理使用(fair use)。
十一、本案几个观察的重点
(一)、AI生成曲谱音乐之争议
首先,所谓之音乐着作,一般包括曲谱、歌词等音乐着作,本案仅是针对歌词部分所衍生
的案件,而其性质上较偏向一般的文字着作,但AI音乐中还有针对曲谱本身之生成式AI。
其实AI早已可自动产生各式各样的音乐曲谱内涵。到目前为止,针对AI产生的曲谱音乐也
有许多争议,像是TikTok匿名使用者「ghostwriter977」,2023年4月使用SoftVC AI软体
,创作一首由Drake和The Weeknd演唱的AI生成歌曲《Heart on My Sleeve》,在TikTok
和YouTube等各串流平台上累积数百万次播放量。
这首歌的词曲是由真人创作,但人声部分却是使用AI语音滤镜(AI voice filters)的
Deepfake生成,刻意去模仿歌手Drake和The Weeknd的声音,透过输入该二人的录音来「
训练」AI应用程式,以模仿出歌手的真实声音和风格。但实际上Drake和The Weeknd并未
参与这首歌,因此艺人的唱片公司环球音乐以侵权为由,下架该首歌曲;而在华人圈之前
也有所谓的AI孙燕姿、AI周杰伦、AI陈珊妮等模仿出歌手声音的类似争议,但迄今仍没有
爆发就AI生成式歌曲本身的诉讼案件,或许将来会有新的案件产生,拭目以待。
(二)、训练过程中之复制 v. 生成结果之复制
生成式AI为了适当训练、教导神经网路理解人类语言运作,因此需要大量文本,来创建一
个大型语言模型数据集,如欲个别逐一取得所有的授权,实际运作上几乎不可能;而训练
需要高达数兆个跨类型的材料,对任何人来说都是无法实现的授权规模。
生成式AI的着作侵权案中,许多原告都主张被告有二个部分侵权,一是在训练过程中大量
复制原告作品,另一则是AI自动生成结果的复制,就这两部分而言,在基本构成要件上都
可能属於重制,但训练过程中的重制是否构成侵权,这部分目前得予豁免於着作侵权而有
立法的唯一例子,是日本着作权法第30条之4与第47条之5。但以美国而言,并未想要像日
本或欧盟的AI Act法案来规范,而系诉诸於案例法依个案不同事实由法官来认定。简而言
之,过程中的重制乍看可能构成要件该当,但从联邦巡回上诉法院作家协会Authors
Guild v. Google, Inc., 804 F.3d 202 (2d Cir. 2015)案,可知纵使有中间过程的复制
也不当然违法,只要最後产生出的结果可构成转化性的合理使用,则并非侵权。
(三)、AI工具不等於搜寻引擎
针对询问Claude某首歌的歌词,它就会输出一样的内容,这是否构成着作权之重制?从某
个意义上看,它像是类似搜寻引擎针对问题来做答之机器,搜寻引擎虽然有中间过程的复
制,但最终未继续保留复制内容,而是把想要查询的使用者,导引到原已存在之网路上某
个网站,透过链结方式让人直达其要寻找的资讯对象。然而,搜寻引擎提供索引不会被认
定构成重制侵害,Claude的情况不同,其并非单纯透过超连结提供索引路径而已,而是将
其已重制汇整具有着作权的内容持续留於数据库中,然後随着用户指令回应而吐出重制内
容,这从着作权法意涵来看,差别在於搜寻引擎最终呈现的只是超链结,而且会指涉来源
出处,Claude则否且最终呈现的是带有重制内容,不过这是否就构成侵权?或许也不能速
断,还要看AI工具提供者是否构成合理使用而定。
(四)、AI生成实质相似之比对
生成式AI侵权案中原告需面对一个客题:被告的产出和自己的着作内容,二者之间必须具
备实质相似性才可能构成侵权。而原告为了要构成侵权,当然需证明原告着作与被指控的
侵权品构成实质上相似(substantial similarity) (请参美国作家集体诉讼控告Meta生成
式AI工具LLaMA着作侵权)。但在许多美国案例中,原告都无法具体举出被告AI吐出的内容
,究竟哪一部分和其内容产生近似。而这当中仅有本案和2023年12月纽约时报起诉微软和
Open AI的案件,可列举出被告AI工具吐出内容构成侵权的具体例证!但针对这些举证,
纽约时报案例中,被告还是抗辩其所以会吐出相同或近似的内容,只是一种「反刍或逆流
」(concept of regurgitation)的现象(请参媒体巨擘控告ChatGPT着作侵权案),本案的
被告是否也会做类似的抗辩,尚不得而知。
(五)、AI生成代理侵害之挑战
本案原告不仅指控被告在模型的训练和使用中构成直接侵害,而且认为使用者本身也一样
构成直接侵害。针对其使用者的直接侵权,被告因此另应负代理侵权责任,原告固然希望
起诉中涵盖所有可能诉因,但应注意的,本案起诉後不到二周,北加州法院在Andersen
et al v. Stability AI, Midjourney案中,做出一项中间判决之程序裁定,要求原告具
体说明被告AI平台如何被第三方以侵权方式使用,如果指控不够具体将被驳回(请参美国
画家告Midjourney生成式AI工具着作侵权案)。
简言之,代理侵害责任必须以直接侵权为前提,然而迄今所有案例都突显一个问题:针对
最後生成之产物(非训练过程中),到底AI工具提供者还是使用者必须负直接侵权责任,
还是二者共同侵权,这些都还未厘清。针对最终生成内容如构成侵权,这在法律上会产生
一个困难:实际的直接侵权者到底是谁?由於工具提供者开发演算法、收集相关数据并训
练模型,但并未直接创作或写出最终具体内容;而使用者输入指令、调校参数,进行选择
与安排,亦非实际创作出最终内容者。二者各负担一部分,但没有任一方单独完成全部行
为,因此,直接侵权如不确定是使用者则代理侵权或无从成立。
(六)、依美国最高法院判例看生成式AI是否构成合理使用
最後,在美国所有的生成式AI侵权案中,被告都会抗辩其系合理使用不构成侵权,新兴科
技冲击既有产业,而此系所有的创新者在被告时反驳的最後法宝,也是着作侵权重中之重
的判断。
针对AI是否可以构成合理使用,美国法院在评估时除需考量法定之四个因素外,依美国案
例法最重要的仍是「转化性合理使用」(transformative fair use) 因素,就此最高法院
迄今已有三个重要的判例:Campbell v. Acuff-Rose Music, Inc. 510 U.S. 569 (1994)
、Google LLC v. Oracle America, Inc., 593 U.S. _(2021)、Andy Warhol
Foundation for the Visual Arts, Inc. v. Goldsmith, 598 U.S._(2023) ,虽然都并
非针对生成式AI,但仍需根据其基本原则来评估侵权与否。
三个判例中最值得观注的是安迪霍华(Andy Warhol)基金会案,最高法院评估如何构成转
化性用途时,将重点放在第一个判断因素:被告利用之目的及性质,亦即使用原作是否具
有「进一步之目的或不同的性质」,当复制使用和原作具有相同或相似之目的和性质时,
而且依第四个合理使用因素:利用结果对着作潜在市场与现在价值之影响(即取代原作之
「市场替代效果」的情况),加上被告二次使用因具有商业性质时,即倾向於对其不利。
依Andy Warhol案判例,只要应用在相同的性质或目的时(都是作为摄影杂志的使用),
且系针对营利上的用途,此时其复制因性质相同又具营利目的,法院即认定被告不符合合
理使用。因此有论者以为,本案中Claude输出歌词系复制受着作权保护的歌词,其目的是
回应使用者的指令要求输出类似原曲的歌词。根据Andy Warhol案的考量以及Anthropic的
商业获利因素,Chatbot 的使用不足以拥有转化性,可能侵犯原创歌曲的着作权。准此,
法院可能会认为Claude侵犯音乐家的着作权,因其功能是复制原作的关键和独特元素,而
不是创造具有其自身目的和特徵的模仿。
反之,在Oracle案中,被告Google虽大量使用原告的程式码,但成功建构其得创造出一种
转化性的科技使用环境,而在科技应用上符合公共利益,即可构成合理使用。在上述两项
光谱当中,本案会往哪个方向移动,本案後续有待法院来界定是否符合转化性之合理使用
。
小结
总之,在法律上不会有放诸四海皆准的结论,认为生成式AI一律可或不可构成合理使用,
这完全视个案中该AI应用的内涵,因此有的的确可以创造公共利益的转化性合理使用,有
些则不然,这些都必须按照个案的技术事实加以认定。
只不过这次生成式AI难度更高,严厉考验着法官的司法智慧。
心得:
本案涉及音乐出版商控告生成式AI「Claude」侵权。原告主张Anthropic未经授权使用其
受着作权保护的歌词来训练AI模型。Anthropic声称其AI模型是合理使用,并声称已修复
相关问题。然而,出版商指责Anthropic侵犯了着作权并从中获利。本案还涉及到AI生成
的歌词是否与原作品相似,以及Anthropic是否有能力控制其侵权行为。出版商请求法律
救济,主张Anthropic的侵权行为对音乐界造成了重大损害。此案也引发了有关AI生成音
乐的争议和着作权保护的问题。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 203.145.192.245 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Patent/M.1716522220.A.C36.html