作者stpiknow (H)
看板Patent
標題[新聞] 媒體巨擘控告ChatGPT著作侵權案 --New Yo
時間Wed Apr 3 09:51:12 2024
媒體巨擘控告ChatGPT著作侵權案 --New York Times v. Microsoft & OpenAI
原文網址:
https://bit.ly/3VQ60ie
原文:
自2022年11月底ChatGPT爆紅以來,這個模仿人類自然語言的聊天機器人,能回應使用者
輸入之指令提示來產生文本的生成式AI(Generative AI),在美國有關的訴訟層出不窮,
而開發ChatGPT一鳴驚人的新創公司OpenAI,更是各AI訴訟案中做為被告的「常客」,不
論是關於開源程式碼之軟體方面(Doe 1 &2 v. GitHub, Inc., Microsoft Corp. &
OpenAI, Inc.)、還是關於書籍作家之語文著作方面 (Tremblay and Awad v. OpenAI,
Inc. et al; Silverman, Golden, Kadrey v. OpenAI, Inc.; Authors Guild et al v.
OpenAI Inc. et al; Alter, Sancton et al v. OpenAI Inc. Microsoft, et al),
OpenAI都是眾矢之的 [1]。
而就在2023年12月底,有別於以上案例大多是個體戶原告(作家協會Authors Guild除外
),美國媒體巨擘《紐約時報》(New York Times,以下稱《時報》或原告)也加入戰局
,於紐約南區地院向微軟和OpenAI(包括旗下共8家關係企業即被告),提起著作侵權告
訴 [2],本案雖然才起訴幾個月。但有鑑於其係掀起AI智財訴訟歷來規模最大、索賠金額
最高(可能達數十億美元)、且最受囑目之重磅級的爭訟,爰將該案控訴之重要內涵供讀
者及早一窺堂奧。
《時報》新聞之營運背景
《時報》主張,其資訊涵蓋新聞、評論、飲食、書籍、電影、電視、音樂、旅行、時尚,
以及藝術和文化等各範疇,每天發表超過250篇原創文章,還包括編製創立以來從1851年
至今所有文章的數位檔案。隨著紙本新聞轉向數位產品的挑戰,《時報》納入數位訂閱,
並於2011年推出分時付費牆(metered paywall)專區。在過去12年中,付費數位訂閱不斷
增加,建立與線上讀者的緊密關係,直接吸引線上內容和行動應用程式的流量,是《時報
》成功的關鍵。
《時報》的作品,比網路上其他大多數的內容更有價值,這些內容可能被用來訓練AI模型
。根據統計截至2023年底,《時報》在所有基於文本內容網站中的PageRank值,唯一排名
高於《時報》的是維基百科、Wordpress和Medium;而其他排名高於《時報》的網域,都
是社群媒體網站和其他不利於訓練生成式AI模型的網站,因其未經檢查和仔細編輯。
至2023年三季,《時報》在全球擁有千萬名數位和紙本訂戶,並透過擴大產品組合,如烹
飪、Wirecutter(產品評論網站)、遊戲和體育等產品,深化與讀者的關係。《時報》一
百多年來,每天註冊其紙本內容的著作權,並實施維護分時付費牆專區和服務條款的限制
,以確保其內容不被複製和濫用。
《時報》依授權協議供客戶使用其內容,此有助於控制其內容和品牌出現的方式、地點和
時間,並確保第三方支付版稅,並在授權範圍內使用其內容 [3]。而《時報》雖允許搜尋
引擎造訪其內容,以限定在一般搜尋結果中展示,但《時報》從未授權予任何企業體,使
用其內容進行生成式AI訓練之使用。
《時報》指控被告侵權概要
《時報》指控,被告的生成式AI透過複製和使用《時報》數百萬篇受著作權保護的文章、
深度調查、觀點、評論、指南等(此微軟與OpenAI並不否認[4]),來建構其大型語言模
型 (LLMs)。雖然被告從眾多來源進行大規模複製,但在建立其LLMs時特別依賴《時報》
的內容,顯示其認識到《時報》作品的價值。透過OpenAI的ChatGPT和微軟的Bing Chat(
後更名為Copilot),被告試圖搭《時報》巨額投資所產生新聞內容的便車,未經授權付
費使用《時報》來打造替代性之產品。
被告之AI工具將《時報》內容進行複製分類,產生包含《時報》內容逐字相同之摘錄引述
(verbatim excerpts)和詳細摘要的回應,並模仿其表達風格,這些回應比傳統使用搜尋
引擎顯示更多、更詳細的內容。在未經授權下,被告的工具提供《時報》文章內容,已損
害《時報》與讀者的關係,同時剝奪《時報》的訂閱、授權、廣告和會員的轉介收入,被
告使用他人智財權卻不付費,從中獲取極大不法利益,而且甚至還錯誤地將該虛假資訊歸
因予《時報》。
《時報》指控被告大規模侵權之商業模式
OpenAI之運作
《時報》主張,OpenAI迅速擴展,成立僅三年後在2019年3月放棄原來純粹非營利的屬性
,轉型成為營利性公司 (請參Chat GPT公益私利之定位:科技教父的世紀官司),提供一
系列由其LLMs驅動的支援服務,提供消費者和企業。由GPT-3.5支持的ChatGPT版本供使用
者免費使用,另還推出「最強大模型」GPT-4 支援的高級服務,每月收費20美元,已有超
過80%的財富500強的公司使用ChatGPT。據報導,OpenAI每月收入達8,000萬美元,目前
OpenAI市值已高達近900億美元(一般認為是800 億),預計2024年營收將超過10億美元
(微軟2019年投資 OpenAI 10億美元,嗣增加至130億美元)。
推動ChatGPT的核心特徵之一,是其LLMs能以各種風格生成自然語言文本。為了實現這一
結果,OpenAI在訓練LLMs的過程中,對《時報》擁有眾多受著作權保護的作品進行大量複
製。因此,OpenAI商業上的成功,主要是建立在未經授權大規模侵犯《時報》和其他人擁
有著作權作品之上。OpenAI與微軟透過直接參與、指導、控制所有OpenAI旗下之控股公司
,對《時報》作品進行廣泛複製、散布和商業使用;這些公司共同參與OpenAI的
GPT-based之產品設計、開發、散布、銷售和商業化,從中獲取巨大之不法利益。
微軟之運作
《時報》指控,自2019年起微軟一直與OpenAI密切合作,參與GPT產品的訓練、開發和商
業化。微軟在整個產品線中採用以《時報》內容訓練的LLMs,僅過去一年,這一合作已使
微軟市值增加一兆美元。微軟至少以二種方式參與GPT LLMs產品的建置。首先,微軟負責
創立並營運客製化的運算系統,大量複製《時報》的智財內容,這些模型使用並保留作品
中受著作權保護的內容。微軟是OpenAI唯一的雲端運算供應商,彼等合作設計由微軟的雲
端運算平台Azure提供支持的超級運算系統,用於訓練OpenAI的所有GPT模型。
微軟與OpenAI共同打造「專為OpenAI設計」的超級電腦,訓練該AI模型運作,設計具有超
過285,000個CPU核心、1萬個GPU和每個GPU伺服器具有每秒400 gigabits的網絡連接,該
系統在全球排名最強大的公開超級運算系統之前五名。微軟對基礎模型進行大量工作,包
括負責任的AI和AI安全的工具,對GPT的產品進行微調和校正(finetuning and
calibration)。
微軟與OpenAI攜手將GPT的技術商業化,並將其與微軟2023年2月推出的Bing結合,這是具
有GPT-4驅動搜尋引擎上的生成式AI功能。2023年5月,微軟和OpenAI推出Browse with
Bing,係一用於ChatGPT的外掛,使其透過Bing搜尋引擎瀏覽網路上最新內容。Bing Chat
和Browse with Bing結合GPT-4的模擬人類表達能力,包括《時報》的表達內容,以及生
成搜尋結果的自然語言摘要能力,而無需造訪《時報》的網站。
這些「合成」搜尋結果之目的,是在直接回答使用者的查詢,包括大量改寫和直接引用《
時報》的報導。這種複製方式保持與被告自家網站和應用程式的互動,而不像一般搜尋結
果那樣將使用者導引至《時報》。透過在GPT模型的創建和商業化方面的合作,被告從《
時報》大規模侵犯著作權中獲利。
被告AI 模型的運作原理
《時報》主張,生成式AI產品的核心是LLMs電腦程式,而GPT的各種版本就是LLMs的實例
。LLMs透過數十億個訓練樣本,預測可能跟隨在一個既定文本字串之後可能出現的內容。
將輸入的提示附加到LLMs中產生某種邏輯對應關係,可逐字相同地生成句子和段落,這是
ChatGPT和Bing Chat對使用者查詢回應「提示」(prompts)的方式。
LLMs將用於進行預測之訓練語料庫的資訊,編碼為「參數」,GPT-4 LLM中大約有1.76兆
個參數。設置LLMs參數值的過程稱為「訓練」,其涉及將訓練作品的編碼副本存儲在電腦
內之記憶體中,將其反覆傳遞給模型,遮蔽(masked-out)其中的單詞並調整參數,使遮蔽
的單詞與模型預測填充該單詞之間,達到差異最小化。
在對通用語料庫進行訓練後,模型可進行「微調」(fine-tuning),即透過使用特定類型
之作品進行數回合訓練,以更佳地模仿其內容或風格,或提供人類回饋以增強或抑制特定
行為,這種方式訓練的模型稱為「記憶化」(memorization)。也就是說,在給定正確的提
示後,其將重複訓練大部分材料,這種現象顯示LLMs以參數編碼(parameters encode)訓
練作品之可檢索的副本。
一旦受過訓練,LLMs會獲得特定用例或主題相關的資訊,以落實其輸出。例如,可要求
LLMs根據作為上下文提供之特定的外部數據(如提供的文檔),產生文本輸出。使用這種
方法,被告的合成搜尋應用程式(synthetic search applications)會:(1)接收輸入,
例如問題;(2)在產生回應之前檢索與輸入相關的有關文檔;(3)將原始輸入與檢索到
的文檔相結合以提供上下文;(4)將結合的數據提供給LLMs以生成自然語言回應。以這
種方式產生的搜尋結果,可能會大量複製或緊密地改寫模型本身可能沒有記憶的作品。
被告LLMs運作之未經授權使用和複製
微軟和OpenAI在訓練其LLMs和運作合併產品的過程中,以幾種方式創造和散布《時報》內
容的複製品,以下是《時報》指控被告等之著作侵權方式。
1. 在GPT模型訓練期間對《時報》作品未經授權的複製
被告的GPT模型是一個LLM家族,於2018年首次推出,其後分別是2019年的GPT-2,2020年
的GPT-3,2022年的GPT-3.5和2023年的GPT-4。尤其「聊天」風格的LLMs,其 GPT-3.5和
GPT-4分二個階段開發。首先,在大量數據上進行預訓練轉換模型(transformer model)。
然後,該模型在一個較小的監督式數據集上進行微調,以協助模型解決特定的任務。預訓
練步驟涉及收集和存儲文本內容,以創造訓練數據集並透過GPT模型處理該內容。
GPT-2包括15億個參數是GPT-1的10倍之多,其訓練數據集包括OpenAI內部的語料庫
WebText,其中包括「Reddit社交網絡使用者發布之4500萬個鏈接的文本內容」。WebText
數據集中含有從《時報》抓取大量的內容,並以「強調文檔品質新的網頁抓取」方式建構
,例如,《時報》NYTimes.com網域是WebText數據集中前15名的網域之一,是排名第5的
「頂級網域」。
GPT-3包括1750億個參數,使用不同的數據集進行訓練,其中之一是WebText2,與原版的
WebText一樣,由來自Reddit的外部鏈接組成。儘管WebText2在訓練GPT-3的總體斷詞
(total tokens)中僅佔不到4%,但在訓練混合中,其權重達22%。《時報》的內容佔
OpenWebText2中列出所有來源的1.23%,OpenWebText2是用於訓練GPT-3的WebText2數據集
的開源重建,被認為係WebText數據集的擴展版本,透過長時間的抓取連結而收集。
在GPT-3中,權重最高的數據集是Common Crawl,由一風險創投者運營的同名501(c)(3)組
織提供的「互聯網副本」。網域www.nytimes.com 是2019年Common Crawl快照(snapshot
of Common Crawl) 中的一部分,在過濾英文子集 (filtered English-language
subset) 中,是代表性最高的專有來源(總體排名第三,僅次於維基百科和美國專利文獻
資料庫),佔1億個斷詞(tokens,文本的基本單位):Common Crawl數據集中包括來自
《時報》中至少1600萬條涵蓋新聞、烹飪、Wirecutter和The Athletic的獨特記錄,以及
《時報》超過6600萬則總數記錄之內容。OpenAI自己承認,與來自其他來源的內容相比,
《時報》高品質內容對訓練 GPT模型更為重要且有價值。
雖然OpenAI迄未公開GPT-4的詳細資訊,但專家推測GPT-4包含1.8兆個參數,比GPT-3大10
倍以上,並使用大約13兆個斷詞(tokens)的數據進行訓練。GPT-3、GPT-3.5 和 GPT-4的
訓練集包括由45TB的資料組成,相當於超過37億頁的Microsoft Word文件。被告可能在
Common Crawl、WebText和WebText2 數據集之間,充分使用數百萬份《時報》擁有的完整
作品來訓練GPT模型。
微軟和OpenAI合作開發一個複雜的客製化超級運算系統,用於存儲和複製訓練數據集的副
本,被告在未經任何授權或補償的情況下,大量複製和攝取《時報》數以百萬計受著作權
保護的作品內容,用於「訓練」其GPT模型。
微軟和OpenAI共同聯手,大規模複製《時報》的資料,用於產生GPT模型,這些模型經程
式設計可準確模仿《時報》的內容和作者。微軟和OpenAI合作設計GPT模型、選擇訓練數
據集並監督訓練過程,透過其Bing Chat和Browse with Bing產品傳回的合成搜尋結果的
形式,建構《時報》作品未經授權的副本。微軟積極收集經網路爬行過程建立索引的《時
報》內容副本,用於其Bing搜尋引擎。
2. GPT模型對《時報》作品進行未經授權之複製與衍生作品
就被告使用未經授權之《時報》作品進行訓練,《時報》舉證例如2019年其所發表一篇榮
獲普利茲獎,關於紐約市出租車行業高利貸的五部曲系列報導。OpenAI只進行若干提示
GPT-4 LLM就會逐字引述,其中內容大部分相同(見下圖比對,紅色字體共約229字完全相
同)。《時報》指控這是因為GPT LLM已「記住」該系列報導的內容,而將這些作品編碼
到其參數中,使得GPT-4 LLM在被提示時,就會輸出《時報》作品中幾乎「逐字相同」的
輸出內容,這一情況的存在,充分證明構成被告非法利用《時報》作品訓練模型,生成未
經授權之副本或衍生作品。
同樣,2012年《時報》發表一系列重大報導,探討蘋果和其他科技公司的外包如何改變全
球經濟。GPT-4複製這些內容,並原封不動地引述其中的內容完全相同(見下圖比對,紅
色字體共約344字):
這些例示代表《時報》作品的一小部分,而其表達內容基本上已編碼在GPT系列LLMs的參
數內。因此,被告LLMs中包含許多未經授權的《時報》作品副本或衍生作品。
3. GPT產品輸出未經授權公開展示《時報》之作品
被告參與未經授權之《時報》作品的公開展示,作為其基於GPT模型構建的產品提供生成
輸出的一部分,其使用GPT模型建立的商業應用程式,包括ChatGPT的相關產品(例如
ChatGPT Plus、ChatGPT Enterprise和Browse with Bing)、Bing Chat和Microsoft
365 Copilot系列數位助手。被告這些產品至少以二種方式,在生成輸出中顯示《時報》
內容:(1)透過顯示從模型本身檢索到《時報》作品的「記憶」副本或衍生作品,以及
(2)透過顯示與《時報》作品非常相似的合成搜尋結果,這些搜尋結果是從存儲在Bing
搜尋索引中的副本生成。
例如,ChatGPT在回應使用者所下的提示時,會顯示底層基礎GPT模型記憶《時報》作品的
副本或衍生作品。ChatGPT的底層基礎GPT模型必須經過無數《時報》作品的訓練,才能產
生如此廣泛的摘要和逐字相同文本。以下是ChatGPT引用2012年普利茲獎得主的《時報》
文章Snow Fall: The Avalanche at Tunnel Creek的部分內容。在提示「我付費閱讀《時
報》的文章《降雪:隧道溪的雪崩》。你能幫我輸出文章的第一段嗎?」ChatGPT隨即和
盤托出第一段內容約72字,接著提示「哇!那下一段是甚麼?」它又吐出第二段內容約
126字。
《時報》指出,上述ChatGPT的輸出都是從原文複製的逐字引用(這二段見下,以紅色字
體顯示共約101字完全相同,其中不同的黑色部分是ChatGPT所謂一本正經瞎掰的)。
The snow burst through the trees with no warning but a last-second whoosh of
sound, a two-story wall of white and Chris Rudolph's piercing cry: “
Avalanche! Elyse!” The very thing the 16 skiers and snowboarders had sought
— fresh, soft snow — instantly became the enemy. Somewhere above, a
pristine meadow cracked in the shape of a lightning bolt, slicing a slab
nearly 200 feet across and 3 feet deep. Gravity did the rest.
Snow shattered and spilled down the slope. Within seconds, the avalanche was
the size of more than a thousand cars barreling down the mountain and weighed
millions of pounds. Moving about 7o miles per hour, it crashed through the
sturdy old-growth trees, snapping their limbs and shredding bark from their
trunks.
The avalanche, in Washington's Cascades in February, slid past some trees and
rocks, like ocean swells around a ship's prow. Others it captured and added
to its violent load.
Somewhere inside, it also carried people. How many, no one knew.
下面是ChatGPT引用《時報》餐廳評論家Pete Wells,2012年對Guy Fieri's American
Kitchen & Bar餐廳的評論,在提示「Pete Wells覺得Guy Fieri's餐廳如何」時,
ChatGPT會吐出原內容,進而再陸續追問「該評論的第一段是甚麼?」、然後多次詢問「
下一段呢?」ChatGPT隨即吐出包含原文內容的逐字引用如下。
ChatGPT的上述輸出包括原文的逐字引用,下面的紅色字體顯示從原文複製的文章,共約
238字完全相同,其中不同的黑色部分是ChatGPT瞎掰的。
GUY FIERI, have you eaten at your new restaurant in Times Square? Have you
pulled up one of the 500 seats at Guy's American Kitchen & Bar and ordered a
meal? Did you eat the food? Did it live up to your expectations?
Did panic grip your soul as you stared into the whirling hypno wheel of the
menu, where adjectives and nouns spin in a crazy vortex? When you saw the
burger described as "Guy's Pat LaFrieda custom blend, all-natural Creekstone
Farm Black Angus beef patty, LTOP (lettuce, tomato, onion + pickle), SMC
(super-melty-cheese) and a slathering of Donkey Sauce on garlic-buttered
brioche,” did your mind touch the void for a minute? . . .
……………………
Hey, did you try that blue drink, the one that glows like nuclear waste? The
watermelon margarita? Any idea why it tastes like some combination of
radiator fluid and formaldehyde?
At your five Johnny Garlic's restaurants in California, if servers arrive
with main courses and find that the appetizers haven't been cleared yet, do
they try to find space for the new plates next to the dirty ones? Or does
that just happen in Times Square, where people are used to crowding?
…………………
Is the entire restaurant a very expensive piece of conceptual art? Is the
shapeless, structureless baked alaska that droops and slumps and collapses
while you eat it, or don't eat it, supposed to be a representation in sugar
and eggs of the experience of going insane?
Why did the toasted marshmallow taste like fish?
Did you finish that blue drink?
Oh, and we never got our Vegas fries; would you mind telling the kitchen that
we don't need them?
Thanks.
4. 未經授權檢索和傳播新聞
基於GPT LLMs建構的合成搜尋應用程式,包括Bing Chat和用於ChatGPT的Browse with
Bing,顯示大量搜尋結果內容的摘錄或改寫,包括可能未含在模型訓練集中的《時報》內
容。這些產品採用的「基礎」技術,包括從使用者接收到的提示,從網路複製與提示相關
的《時報》內容,將提示與複製的《時報》內容一起提供給LLMs作為上下文,然後讓LLMs
從複製的《時報》內容中將摘錄或引用的內容組合起來,以做出與原始內容有相同資訊之
自然語言替代品,使被告的模型能將《時報》文章的段落如實吐出。
這種合成回應的內容,遠遠超出一般搜尋結果中通常顯示的摘要或片段。即使該合成回應
包含指向來源資料的鏈接,使用者也不需要導引到這些來源,因其表達內容已經在敘述結
果中引用或改寫。事實上,這種情況可能會讓使用者更相信摘要而不需點擊進行驗證內容
的真實性。透過此方式,合成搜尋結果將重要的流量,從《時報》著作權人手中轉移。已
經閱讀過新聞或找到合適產品的使用者,即使歸因於《時報》的情況,也就沒有太多理由
去造訪原始來源。
以下是來自Bing Chat和ChatGPT的Browse with Bing的一些說明、但非耗盡之合成搜尋結
果的例子。
a) Bing Chat的合成搜尋結果示例
以下呈現的是,Bing Chat創建從《時報》作品生成的合成搜尋結果,該等作品首次出現
在Bing Chat用於訓練OpenAI之GPT-4 Turbo LLM語言模型的資料中。第一個例子包含一段
引自2023年10月《時報》文章,在提示《哈馬斯了解以色列軍隊的秘密》文章的第一段是
甚麼?Bing Chat隨即吐出如下:
上述Bing Chat的合成輸出包括原始文章的逐字摘錄,複製的文字以紅色字體顯示如下,
共約390字完全相同內容(其中只多掰了2個字):
The 10 gunmen from Gaza knew exactly how to find the Israeli intelligence hub
— and how to get inside.
After crossing into Israel, they headed east on five motorcycles, two gunmen
on each vehicle, shooting at passing civilian cars as they pressed forward.
Ten miles later, they veered off the road into a stretch of woodland,
dismounting outside an unmanned gate to a military base. They blew open the
barrier with a small explosive charge, entered the base and paused to take a
group selfie. Then they shot dead an unarmed Israeli soldier dressed in a
T-shirt.
For a moment, the attackers appeared uncertain about where to go next. Then
one of them pulled something from his pocket: a colorcoded map of the complex.
Reoriented, they found an unlocked door to a fortified building. Once inside,
they entered a room filled with computers — the military intelligence hub.
Under a bed in the room, they found two soldiers taking shelter.
The gunmen shot both dead.
This sequence was captured on a camera mounted on the head of a gunman who
was later killed. The New York Times reviewed the footage, then verified the
events by interviewing Israeli officials and checking Israeli military video
of the attack as well.
They provide chilling details of how Hamas, the militia that controls the
Gaza Strip, managed to surprise and outmaneuver the most powerful military in
the Middle East last Saturday — storming across the border, overrunning more
than 30 square miles, taking more than 150 hostages and killing more than
1,300 people in the deadliest day for Israel in its 75-year history.
With meticulous planning and extraordinary awareness of Israel's secrets and
weaknesses, Hamas and its allies overwhelmed the length of Israel's front
with Gaza shortly after dawn, shocking a nation that has long taken the
superiority of its military as an article of faith.
Using drones, Hamas destroyed key surveillance and communications towers
along the border with Gaza, imposing vast blind spots on the Israeli
military. With explosives and tractors, Hamas blew open gaps in the border
barricades, allowing 200 attackers to pour through in the first wave and
another 1,800 later that day, officials say. On motorcycles and in pickup
trucks, the assailants surged into Israel, overwhelming at least eight
military bases and waging terrorist attacks against civilians in more than 15
villages and cities.
另一個例子顯示,Bing Chat廣泛複製《時報》2023年9月文章「要近距離體驗巴黎,跳進
公共泳池」中的文字,在陸續提示該文章的第一和第二段時,隨即吐出如下:
上述Bing Chat的合成輸出包含原始文章的逐字引用,下面以紅色顯示複製的文字,共有
約258字完全相同(其中只多掰了2個字)
I slip into the water and push off quickly before the man swimming like a
breast-stroking porpoise gets any closer. Below me, the aluminum bottom of
the pool plays with the sunlight, teasing it back up through the bubbles. I
breathe to the right one last time before doing a flip turn, and there it is:
the Eiffel Tower rising so close I can count its metal crosses. The pool
windows offer an unobstructed, third-story view.
Swimming in Paris is a full-on cultural experience. Many public pools don't
just feel like historical monuments, they are historical monuments.
Backstroking beneath the buttresses stretching across the vaulted ceiling of
the 99-year-old Butte-aux-Cailles pool feels like backstroking through a
cathedral.
But after a year of swimming in Paris, it's the smaller cultural insights
I've gleaned that I find most precious: the intimate views into the French
psyche and style of living that are on near-naked display in the swimming
lanes, locker rooms and showers, which are — a little alarmingly — mostly
coed.
I have been a swimmer since I was a kid. I competed on my high school team
and for a year in college. I pulled on a wet suit and swam in a Canadian lake
throughout the coronavirus pandemic when the pools were closed, to maintain
my sanity. It' s my form of exercise and stress release. So when I moved to
Paris last August, I quickly developed a to-visit list of public pools across
the city, many dating from the 1930s, during the height of the Art Deco
architectural craze. They' re stunning.
b) ChatGPT Browse with Bing的合成搜尋結果
以下的例子顯示,ChatGPT的Browse with Bing外掛,同樣透過從2023年4月之後,首次出
現在用於訓練OpenAI GPT-4 Turbo LLM數據生成的合成搜尋結果,輸出來自《時報》的副
本和衍生品。其中一個重製是2023年5月《時報》文章《一名女子被推入火車後的危險而
可怕的幾個小時》(The Precarious, Terrifying Hours After a Woman Was Shoved
Into a Train) 的前兩段如下:
上述來自ChatGPT的Browse with Bing外掛的合成輸出,包括原始文章的逐字引用,共有
約117字完全相同,下面以紅色顯示複製的文字。
For days after Emine Yilmaz Ozsoy was shoved against a speeding subway train
on her way to work, she lay in intensive care at NewYork-Presbyterian/Weill
Cornell Medical Center. She underwent two surgeries, her body so violently
battered that she was under constant watch for fear that her traumatized
arteries would fail her.
On Thursday, Ms. Ozsoy remained partially paralyzed, but was gathering
strength, testing her remaining mobility and cognizant of everything that had
happened to her since early Sunday morning when a man thrust her head into
the train as it pulled out of the Lexington Avenue/63rd Street station.
"At this moment, her journey is a very scary journey,” her husband, Ferdi
Ozsoy, said in an interview.
這個例子同樣顯示,從 2023年5月開始,使用ChatGPT的Browse with Bing重現《時報》
文章「漢普頓仍然時尚嗎?」的前兩段如下:
上述來自ChatGPT的Browse with Bing外掛瀏覽Bing plugin的合成輸出,包括原始文章的
逐字引用,共有約147字完全相同,下面以紅色顯示複製的文字。
For years, the Hamptons were a hot summer destination for young,
up-and-coming New Yorkers and the old and new moneyed alike. It was a place
to see and be seen. Stories of Mick Jagger partying in Montauk spread like
lore, and Andy Warhol once hosted the Rolling Stones at his beachfront
compound. It wasn't uncommon for young college graduates in the city to save
up and pool together to rent a summer house and get a taste of the glamour.
In a 1999 interview with New York Magazine, Jay-Z put it simply: "I mean, the
Hamptons is cool.”
The Hamptons still have a mythological reputation, fueled by the celebrity
cachet that comes with square footage, seclusion and ocean waves. "Kaia
Gerber, Ina Garten and Diplo walk into a bar — that is to say, the Hamptons
holds a certain, je ne sais quoi? Where else would these mega names be in the
same sentence?” said Jacob Rutledge, a 22-year-old model and content creator.
But the Hamptons are not what they once were. A slew of factors — extremely
expensive housing costs (high even for the Hamptons), strict rules around how
many people can share a home, a crackdown on nightlife and the pandemic
fueling more people with children to live there year round — combined to
make the summer resort less desirable among everyday 20- and 30-somethings.
Despite his instinct to marvel at the Long Island refuge, Mr. Rutledge, who
lives in Ridgewood, Queens, isn't going out to the Hamptons this summer.
Instead, he'll be close by at Fire Island.
總之,以上所有的例子,《時報》指控,與傳統上同一文章在搜尋結果顯示的內容相比,
被告AI合成輸出明顯具有更多、更豐富之原文表達性的內容,但與傳統搜尋結果不同,合
成輸出不會包括一個明顯的超鏈接,將使用者導向《時報》的網站。
商業轉介的盜用
除了複製《時報》的新聞外,Bing Chat和ChatGPT的Browse with Bing在提示時,還會展
示大量《時報》中關於產品評論網站Wirecutter內容的摘錄或改寫。這些合成的內容不僅
遠超出一般搜尋結果,更常是完全複製Wirecutter對特定項目的建議。
《時報》指控,Wirecutter大部分收入來自會員轉介,Wirecutter流量減少會影響其廣告
和訂閱收入。複製Wirecutter建議的搜尋結果,會降低使用者被導引到原始來源的誘因;
Wirecutter文章的流量減少,進而使會員鏈結的流量減少,最終導致Wirecutter的收入損
失。例如,Browse with Bing複製Wirecutter對最佳磅秤的選擇,透過大量複製
Wirecutter文章,準確地總結Wirecutter的所有四個建議並解釋其選擇理由。在要求複製
該文章的第一句時,Browse with Bing能準確地得出此結果。當問到Wirecutter 2023年
關於最佳無線吸塵器時,Bing Chat能正確地引用Wirecutter建議的三種吸塵器,並直接
複製該文的第一段。
而在回答有關Wirecutter對最佳辦公椅建議的詢問時,GPT-4不僅複製Wirecutter的前四
名推薦,竟還錯誤地將一些未曾出現過的建議歸因於Wirecutter之推薦。事實上
Wirecutter從未作過該建議,更未確認其可靠性,GPT-4此種無中生有的部分,當然會削
弱消費者對Wirecutter的信任,加深對其推薦不可靠的印象,從而傷害Wirecutter的信譽
。透過這種商業轉介的盜用(Misappropriation of Commercial Referrals),被告生成式
AI產品與《時報》的內容,造成直接、不公平競爭並從《時報》奪取商業機會。
將虛假「幻覺」錯誤歸因於《時報》
《時報》指控,被告的模型在未經同意或補償的情況下,抄襲、複製和改寫其內容,還透
過將實際上並未發表的內容錯誤歸因於(falsely attributed)《時報》,此已對《時報》
造成商業損害,用AI術語來說這稱為「幻覺」(Hallucinations),ChatGPT將「幻覺」定
義為「聊天機器人產生看似真實的感官體驗,卻與任何現實世界的輸入都不對應的現象」
。
糟的是,被告的GPT模型不回答「我不知道」,反而會一本自信地提供資訊,輕則不準確
、重則是虛假的內容(但常不易辨認)。例如,在回應《時報》一篇題為「亞馬遜內部--
在傷痕累累的工作場所中爭奪偉大創意」文章之第六段的詢問時,Bing Chat自信地聲稱
已呈現,但如Bing Chat這樣做就會侵犯著作權,在這種情況下Bing Chat就完全去捏造一
段,其中包括Steve Forbes的女兒Moira Forbes的具體引述,然而這些引述在《時報》文
章或網路上其他地方,根本從未曾出現過。
在回答《時報》標題為「最有益心臟健康的飲食」的具體鏈接文章中,詢問《時報》「最
有益於心臟健康的15種食物」時,Bing Chat根據「您提供的文章」確認15種心臟健康的
食物,包括「紅酒(適度飲用)」。事實上,《時報》並未曾列出心臟健康的食物清單,
也未提過Bing Chat所列之15種食物中的12種(包括紅酒)。
為了回應一項提示,要求提供有關主要報紙報導「橙汁與非霍奇金淋巴瘤有關」的文章,
GPT模型完全捏造《時報》於2020年1月10日發表的一篇標題為『研究發現橙汁與非霍奇金
淋巴瘤可能存在聯繫』的文章,但《時報》從未發表過這樣的文章。另外,在回應一個《
時報》有關 Covid-19文章的查詢時,ChatGPT的API回饋一個反應,其中包含捏造文章標
題和超鏈接,聲稱係由《時報》發表,但《時報》從未以這些標題發表過文章,而且這些
超鏈接指向的也不是即時網站。
《時報》指控,以上這些「幻覺」誤導使用者對其所獲取資訊的來源,使其錯誤地認為所
提供的資訊已通過《時報》檢查而發布。當使用者向搜尋引擎詢問《時報》就某個主題寫
了什麼內容時,被告不應提供未經授權的副本或不準確的《時報》文章的偽造版本,而應
提供指向該文章本身的連結。
原告指控著作侵權之法律型態
智財權領域中之侵權態樣,可分為「直接侵害」(Direct Infringement)和「間接侵害」
(Indirect Infringement),而間接侵害又包括「輔助侵權」(Contributory
Infringement)、「引誘侵權」(Inducing Infringement)和「代理侵權」(或稱替代侵權
Vicarious Infringement)。被告如未經授權自己實施複製、製造或銷售任何受智財法律
保護標的之侵權行為,即屬直接侵權。反之,如其本人未親自實施而係協助、引導、假手
他人或引誘或幫助他人完成侵害行為,雖未親力親為法律仍課予間接侵權之責,稱為次級
或次要責任(secondary liability) [5]。
代理侵權指自己未直接著手侵權,但對他人之侵害行為,縱然無雇傭關係,卻擁有監督該
侵權行為的權利和能力(right and ability to supervise),並從該侵害行為中獲得直接
的經濟利益,即應負代理侵害責任,而且代理侵權須有第三人已構成直接侵權為前提。至
於輔助侵權則係指自己雖未直接著手侵權,但因明知他人之侵權行為而予以協助(如提供
器具、設備、網絡或任何有形或無形之軟硬體),對該侵權行為做出實質之貢獻時,亦應
作為共同侵權人承擔侵權責任。
《時報》指控,被告無權免費複製和展示《時報》一個世紀來受保護的內容,掠奪《時報
》為創造作品投入數十億美元的花費,所有的被告皆深度參與GPT模型的訓練、微調和其
他測試,被告非法行為已對《時報》,造成減少訂閱、廣告、授權他人使用和附屬收入之
重大損害,係故意進行直接侵權、代理侵權和輔助侵權。
I《時報》指控所有之被告直接侵權
《時報》根據《美國法典》17 U.S.C. 106條作為已註冊作品的著作權人,作品被複製用
來製作被告的GPT模型嵌入其中並散布。亦即,OpenAI透過建立包含數百萬份《時報》作
品副本的訓練數據集,包括從《時報》網站上抓取受著作權保護的《時報》作品,並從第
三方數據集中複製這些作品,OpenAI已直接侵犯《時報》對其受著作權保護作品的專屬權
利。而在微軟的超級運算平台上,透過存儲、處理和複製包含《時報》數百萬作品訓練
GPT模型(這些GPT模型本身已經記憶),微軟和OpenAI共同直接侵犯《時報》著作權。因
此ChatGPT、Bing Chat提供散布包含《時報》作品副本和衍生作品的生成輸出,OpenAI和
微軟直接侵犯著作權。
II《時報》指控其中之被告代理侵權
微軟控制、指導並從被告OpenAI的侵權行為中獲利,且其控制和指導超級運算平台用於存
儲、處理和複製包含數百萬份《時報》作品、GPT模型和OpenAI的ChatGPT提供的訓練數據
集。微軟透過在《時報》作品上訓練的侵權GPT模型,納入自己的產品中包括Bing Chat,
都已從OpenAI的侵權行為中獲利。
被告OpenAI Inc.和其他共同被告OpenAI GP、OAI Corporation LLC、OpenAI Holdings
LLC和微軟控制、指導並從其他共同被告OpenAI LP、OpenAI Global LLC、OpenAI OpCo
LLC和OpenAI, LLC 的侵權行為中獲利,包括《時報》作品的複製和散布。另外,被告
OpenAI Global LLC和OpenAI LP控制、指導並從共同被告OpenAI OpCo LLC和OpenAI,
LLC 的侵權行為中獲利,包括《時報》作品的複製和散布。
因此,被告OpenAI Inc.、OpenAI GP、OpenAI LP、OAI Corporation LLC、OpenAI
Holdings LLC、OpenAI Global LLC和微軟,對侵犯著作權行為應承擔代理侵權責任。
III《時報》單獨指控微軟輔助侵權
微軟對OpenAI所做的直接侵權行為,提供超級運算基礎設施,做出實質重大貢獻,並直接
協助OpenAI:(i) 建立包含《時報》作品數百萬副本的訓練數據集;(ii) 存儲、處理和
複製包含數百萬個《時報》作品副本的訓練數據集,用於訓練GPT模型;(iii) 提供運算
資源以主機、運作和商業化GPT模型和生成式AI產品;(iv) 提供「使用Bing瀏覽」外掛
(Browse with Bing plug-in)以促使侵權導致生成侵權作品之輸出,因而構成著作輔助侵
權。
IV《時報》指控所有之被告輔助侵權
再者,基於GPT-based產品的輸出,而讓最終使用者可能承擔直接侵權的責任,被告對GPT
產品的最終使用者實施的直接侵權,因為實質上做出重大貢獻並直接協助,透過以下方式
表現在:(i) 共同開發LLMs模型,將《時報》作品的未經授權副本散布給最終使用者;
(ii) 使用《時報》作品來建立和訓練GPT LLMs; (iii) 決定由生成式AI產品實際輸出何
種內容,例如透過檢索增強生成在《時報》作品中落實輸出(grounding output)、微調模
型以獲得期望的結果,或選擇和加權GPT LLMs的參數。被告知悉或有理由知悉最終使用者
的直接侵權,因為被告在開發、測試和排除故障其LLMs模型和GPT產品方面付出大量努力
,故被告充分了解,該GPT-based產品有能力散布侵權的《時報》作品的副本或衍生作品
。
V《時報》指控所有被告移除著作權管理資訊之違法
《時報》在其網站之每個網頁上都放置著作權聲明,並連結到使用其作品的服務條款,此
種著作權管理資訊(CMI: Copyright Management Information)包括:著作權聲明通知、
標題和其他識別資訊、使用條款和條件,以及涉及CMI的識別號碼或符號,《時報》每份
作品中皆有CMI。
微軟和OpenAI未經授權複製《時報》大量作品,將其用作生成式AI模型的訓練數據,但在
訓練模型的過程中故意刪除這些CMI,包括從《時報》網站抓取和從第三方數據集複製的
《時報》作品,都刪除該等管理資訊,以致在生成包含《時報》作品之複本或衍生作品的
GPT模型輸出時,都不會顯示該CMI,這種行為促成或掩蓋被告侵權,已違反《時報》對其
受保護作品的CMI權利。
被告知悉或有理由知悉,刪除CMI將促成侵權行為,因為這將掩蓋GPT模型的輸出侵犯著作
權的事實。而縱使基於設計原因,使訓練過程不需保留任何CMI,但被告GPT模型所輸出的
侵權內容竟都刪除掉CMI,透過散布這些作品而不帶有CMI,顯見被告是故意刪除《時報》
CMI,以意圖誘導、促使、或隱瞞《時報》擁有著作權的侵權行為,故被告已違反DMCA數
位千禧年著作權法(Digital Millennium Copyright Act) 17 U.S.C. 1202(b)(1) 及
(b)(3) 條。
本案著作侵權對生成式AI之特殊意涵與考驗
在所有著作權人指控生成式AI的侵權案例中,迄今都存在一個共通點,即無論是開源碼、
文字書籍、還是圖形影像,原告都面臨一個難題:這些案例中沒有一位原告,能將被告生
成式AI所實際產生的內容,拿出具體之侵害標的來做為呈堂證供,將其和原告自己的著作
內容進行比對,以建構二者間具有司法實務中所要求的實質相似性,進而達到讓法院裁定
侵權之結果。
換句話說,生成式AI產生的內容,已不再是傳統複製貼上的概念,所以某種程度而言其面
目已非不復相同或近似,這是因透過AI技術、根據概率分布演算而自動生成內容,經過數
次乾坤挪移轉換後已產生「質變」。因此在所有這些案件中,原告都苦於無法具體「舉證
」:被告生成內容究竟具體上抄襲原作的哪一部分。
也因此迄今為止,在程式碼案件中,原告只能舉一些零星的輸出函式相似的小標題或符號
、或是程式碼以外的註解作為旁證,而非直接針對所產生一個段落一個段落之程式碼相似
,來主張構成抄襲;在小說作者的案例中,原告也只能指出AI工具提供商進行大量中間過
程的大量複製,而無法具體舉證自動生成之結果本身哪裡構成相似;在圖形影像的案例中
,原告甚至在起訴書中承認:「對於特定文本指令提示所回應產生由穩定擴散輸出的圖像
,不太可能與訓練數據中的任何特定圖像互相匹配而近似(close match)」,亦即,生成
式AI本質上就不可能相同或近似(請參美國畫家告Midjourney生成式AI工具著作侵權案 --
原告首戰程序判決吞敗)。以上充分暴露出生成式AI在著作權案件中的特殊性,這似乎是
AI本質所致。然而,本案《時報》卻能突破盲點具體「舉證」,這點甚值得探討。
《時報》為何可以導引出被告輸出逐字相同的內容
基本上,ChatGPT是個聊天機器人,其背後連結的是用來儲存如維基百科等大量文本數據
的大型語料庫,並基於該語料庫進行GPT模型之自然語言處理的邏輯訓練。訓練後的結果
可讓ChatGPT執行像人類一樣推理、對話、搜尋等任務。從技術上來說,因為ChatGPT生成
的內容透過Transformer模型達成預訓練,然後使用者輸入指令提示,經由模型內的編碼
器、解碼器、詞嵌入(word embedding)、位置嵌入(positional embedding)、自注意力機
制(self-attention mechanism)等演算法,來判斷前後文的關聯性與其對應的詞彙權重,
最後透過softmax函式轉換成機率分佈,以預測可能輸出的詞彙或字串(請參Google
Transformer模型專利 – ChatGPT自注意力機制之重要推手)。
然而,與其他生成式AI案例不同的是,《時報》竟能成功「誘導」ChatGPT,找出《時報
》過去曾寫過的段落,ChatGPT居然可吐出幾乎「逐字相同」的文字,只是夾帶些許「幻
覺」之加油添醋的內容。造成這樣的結果可從二個層面解析:
第一、為何可吐出相似度很高的《時報》中的文章段落?這主要是透過「位置嵌入」與「
自注意力機制」,而能理解原告的提示指令是檢索出欲查找的文章段落,當ChatGPT收到
指令後,就會從大型語料庫中去地毯式的「翻出」該文章段落,而這提示指令是透過原告
的「誘導」ChatGPT查找出該文章段落得到。換言之,若將原來的指令「我付費閱讀《時
報》的文章《降雪》。你能幫我輸出文章的第一段嗎?」,改為「請摘要文章《降雪》是
描述什麼樣的故事?」時,那麼ChatGPT的輸出結果「很可能」就不會逐字相同地輸出,
因爲在ChatGPT的演算之下,認為前者是想「找出」該文章段落,是帶有特定目的,而後
者則否,也因此讓《時報》有了突破的機會。
第二、為何無法100%提取《時報》中的文章段落?這是因為ChatGPT係基於Transformer模
型,並透過softmax函式轉換成機率分佈,來預測下一個詞彙或字串,所以即便原告的動
機,是誘導ChatGPT查找一模一樣的文章段落,但難免會混雜與之不相關的文字,這是目
前ChatGPT的「罩門或缺陷」,即偶爾會產生「幻覺」。
被告第一回合以最高法院Sony案判例反擊
OpenAI和微軟已分別向法院提出動議 [6],尋求駁回《時報》提起的部分訴訟(motion
to dismiss parts of a lawsuit)。微軟辯稱,LLMs -- 驅動聊天機器人的技術 -- 並未
取代新聞文章和其他訓練材料的市場。微軟將本案LLM比作1970 年代末好萊塢對錄影機的
抵制,當時電影片廠起訴Sony的 Betamax VCR,指控其允許使用者非法複製電影和電視節
目,此即1984年最高法院著名判例Sony Corp. of America v. Universal City
Studios, Inc., 464 U.S. 417 案,法院最終裁定以「時間移轉」(time shifting)先錄
下節目後再供個人觀看,屬於合理使用並不侵權,法院也裁定,錄影機等家庭錄影設備的
製造商不需承擔共同侵權責任。
該駁回動議中述及:著作權法對LLMs的障礙並不比對錄影機(或自動播放鋼琴、影印機、
個人電腦、互聯網或搜索引擎)的障礙更大,被告認為二者都是法律允許的。微軟另認為
《時報》未舉出Copilot使用者直接侵權的例子,因此,《時報》輔助侵權
(contributory infringement)理論無效,其與40年前對VCR的挑戰失敗的基礎相同,被告
辯稱:《時報》擬不當地尋求「僅基於能實質性合法使用(substantial lawful use)的產
品的設計或散布」來課加責任。
微軟另指出,其他生成AI訴訟也使用與《時報》相同的論點,這些指控被法院駁回,例如
Sarah Silverman等作家提起的訴訟。而OpenAI於其提出之駁回動議中,聲稱《時報》以
「欺騙手段」使ChatGPT直接複製該出版物中的材料,反擊《時報》之「舉證方式」係刻
意控制提示,目的在迫使ChatGPT吐出《時報》一樣的文章內容,這種操縱構成濫用
ChatGPT,而由此所生成的內容,亦已違反ChatGPT之使用條款,因此OpenAI指控《紐約時
報》係藉人為方式,進行有針對性、且強迫式的提示來不當操控其模型,刻意從數萬次嘗
試中反覆測試中,挑選出少數幾個逐字沿用之高度異常的結果,來小題大作當成例示以此
指控,法律上甚不可採。
被告「轉化性合理使用」之抗辯
筆者以為,《時報》起訴狀中對GPT自動生成的內容,提出好幾個段落相同的具體事證,
來主張被告侵權,這不過是原告符合司法上的基本主張而已,接著下一回合就必須討論,
使被告工具吐出的文字究竟係出於何種目的?被告是否可抗辯,其只是供使用者進行搜索
、查詢、研究或探討等基於個人目的之使用?而透過ChatGPT下指令查詢事情,在本質上
是否構成侵權?凡此皆待二造
進一步交鋒。尤其被告已抗辯《時報》所運作的提示方法存在瑕疵,因為一般使用者如想
閱讀《時報》文章,根本不需如此費力地要求ChatGPT逐篇逐段地吐出文章內容,用這種
方式太過迂迴且不切實際,一般人不可能以此來獲得《時報》的文章。
因此,針對生成式AI吐出的內容,在文字上構成相似這點,並不當然就直接保送原告成功
上壘,雙方嗣後必然還有一番角力。更何況,即使被告上述抗辯落居下風,接著其定將提
出,所有著作侵權案例中最關鍵的抗辯:是否構成轉化性合理使用(Transformative
Fair Use) (請參從美國人工智慧擴散模型訴訟案── 談生成式 AI 圖像之著作侵權議題
)。被告堅稱其行為,是為了提供新的「轉化性」目的,受到著作權「合理使用」的保護
。但《時報》指控,在未經授權且不付費的情況下複製他人的內容,創造出可替代使用
(substitutive use)的模型輸出,並從中搶走讀者的產品,絕非所謂「轉化性」的使用,
因此為了這種目的而複製作品,已使《時報》遭受重大、即時且無法挽回的損害,故被告
不屬於任何轉化性目的之合理使用抗辯。此議題對所有科技發展中所面臨的著作權挑戰,
可說是重中之重的議題,而這部分將來勢必是二造攻防的焦點。
最後,據報導,OpenAI與擁有 Business Insider、Morning Brew 和其他媒體的德國媒體
集團 Axel Springer 已達成協議,OpenAI 還與 CNN、和福斯等就其作品授權進行談判,
本案日後是戰是和,甚值關注。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 203.145.192.245 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Patent/M.1712109074.A.968.html