[新闻] 媒体巨擘控告ChatGPT着作侵权案 --New Yo

时间Wed Apr 3 09:51:12 2024

媒体巨擘控告ChatGPT着作侵权案 --New York Times v. Microsoft & OpenAI 原文网址: https://bit.ly/3VQ60ie 原文: 自2022年11月底ChatGPT爆红以来，这个模仿人类自然语言的聊天机器人，能回应使用者输入之指令提示来产生文本的生成式AI(Generative AI)，在美国有关的诉讼层出不穷，而开发ChatGPT一鸣惊人的新创公司OpenAI，更是各AI诉讼案中做为被告的「常客」，不论是关於开源程式码之软体方面(Doe 1 &2 v. GitHub, Inc., Microsoft Corp. & OpenAI, Inc.)、还是关於书籍作家之语文着作方面 (Tremblay and Awad v. OpenAI, Inc. et al; Silverman, Golden, Kadrey v. OpenAI, Inc.; Authors Guild et al v. OpenAI Inc. et al; Alter, Sancton et al v. OpenAI Inc. Microsoft, et al)， OpenAI都是众矢之的 [1]。而就在2023年12月底，有别於以上案例大多是个体户原告（作家协会Authors Guild除外），美国媒体巨擘《纽约时报》（New York Times，以下称《时报》或原告）也加入战局，於纽约南区地院向微软和OpenAI（包括旗下共8家关系企业即被告），提起着作侵权告诉 [2]，本案虽然才起诉几个月。但有监於其系掀起AI智财诉讼历来规模最大、索赔金额最高（可能达数十亿美元）、且最受嘱目之重磅级的争讼，爰将该案控诉之重要内涵供读者及早一窥堂奥。《时报》新闻之营运背景《时报》主张，其资讯涵盖新闻、评论、饮食、书籍、电影、电视、音乐、旅行、时尚，以及艺术和文化等各范畴，每天发表超过250篇原创文章，还包括编制创立以来从1851年至今所有文章的数位档案。随着纸本新闻转向数位产品的挑战，《时报》纳入数位订阅，并於2011年推出分时付费墙(metered paywall)专区。在过去12年中，付费数位订阅不断增加，建立与线上读者的紧密关系，直接吸引线上内容和行动应用程式的流量，是《时报》成功的关键。《时报》的作品，比网路上其他大多数的内容更有价值，这些内容可能被用来训练AI模型。根据统计截至2023年底，《时报》在所有基於文本内容网站中的PageRank值，唯一排名高於《时报》的是维基百科、Wordpress和Medium；而其他排名高於《时报》的网域，都是社群媒体网站和其他不利於训练生成式AI模型的网站，因其未经检查和仔细编辑。至2023年三季，《时报》在全球拥有千万名数位和纸本订户，并透过扩大产品组合，如烹饪、Wirecutter（产品评论网站）、游戏和体育等产品，深化与读者的关系。《时报》一百多年来，每天注册其纸本内容的着作权，并实施维护分时付费墙专区和服务条款的限制，以确保其内容不被复制和滥用。《时报》依授权协议供客户使用其内容，此有助於控制其内容和品牌出现的方式、地点和时间，并确保第三方支付版税，并在授权范围内使用其内容 [3]。而《时报》虽允许搜寻引擎造访其内容，以限定在一般搜寻结果中展示，但《时报》从未授权予任何企业体，使用其内容进行生成式AI训练之使用。《时报》指控被告侵权概要《时报》指控，被告的生成式AI透过复制和使用《时报》数百万篇受着作权保护的文章、深度调查、观点、评论、指南等（此微软与OpenAI并不否认[4]），来建构其大型语言模型 (LLMs)。虽然被告从众多来源进行大规模复制，但在建立其LLMs时特别依赖《时报》的内容，显示其认识到《时报》作品的价值。透过OpenAI的ChatGPT和微软的Bing Chat（後更名为Copilot），被告试图搭《时报》巨额投资所产生新闻内容的便车，未经授权付费使用《时报》来打造替代性之产品。被告之AI工具将《时报》内容进行复制分类，产生包含《时报》内容逐字相同之摘录引述 (verbatim excerpts)和详细摘要的回应，并模仿其表达风格，这些回应比传统使用搜寻引擎显示更多、更详细的内容。在未经授权下，被告的工具提供《时报》文章内容，已损害《时报》与读者的关系，同时剥夺《时报》的订阅、授权、广告和会员的转介收入，被告使用他人智财权却不付费，从中获取极大不法利益，而且甚至还错误地将该虚假资讯归因予《时报》。《时报》指控被告大规模侵权之商业模式 OpenAI之运作《时报》主张，OpenAI迅速扩展，成立仅三年後在2019年3月放弃原来纯粹非营利的属性，转型成为营利性公司 (请参Chat GPT公益私利之定位：科技教父的世纪官司)，提供一系列由其LLMs驱动的支援服务，提供消费者和企业。由GPT-3.5支持的ChatGPT版本供使用者免费使用，另还推出「最强大模型」GPT-4 支援的高级服务，每月收费20美元，已有超过80%的财富500强的公司使用ChatGPT。据报导，OpenAI每月收入达8,000万美元，目前 OpenAI市值已高达近900亿美元（一般认为是800 亿），预计2024年营收将超过10亿美元（微软2019年投资 OpenAI 10亿美元，嗣增加至130亿美元）。推动ChatGPT的核心特徵之一，是其LLMs能以各种风格生成自然语言文本。为了实现这一结果，OpenAI在训练LLMs的过程中，对《时报》拥有众多受着作权保护的作品进行大量复制。因此，OpenAI商业上的成功，主要是建立在未经授权大规模侵犯《时报》和其他人拥有着作权作品之上。OpenAI与微软透过直接参与、指导、控制所有OpenAI旗下之控股公司，对《时报》作品进行广泛复制、散布和商业使用；这些公司共同参与OpenAI的 GPT-based之产品设计、开发、散布、销售和商业化，从中获取巨大之不法利益。微软之运作《时报》指控，自2019年起微软一直与OpenAI密切合作，参与GPT产品的训练、开发和商业化。微软在整个产品线中采用以《时报》内容训练的LLMs，仅过去一年，这一合作已使微软市值增加一兆美元。微软至少以二种方式参与GPT LLMs产品的建置。首先，微软负责创立并营运客制化的运算系统，大量复制《时报》的智财内容，这些模型使用并保留作品中受着作权保护的内容。微软是OpenAI唯一的云端运算供应商，彼等合作设计由微软的云端运算平台Azure提供支持的超级运算系统，用於训练OpenAI的所有GPT模型。微软与OpenAI共同打造「专为OpenAI设计」的超级电脑，训练该AI模型运作，设计具有超过285,000个CPU核心、1万个GPU和每个GPU伺服器具有每秒400 gigabits的网络连接，该系统在全球排名最强大的公开超级运算系统之前五名。微软对基础模型进行大量工作，包括负责任的AI和AI安全的工具，对GPT的产品进行微调和校正(finetuning and calibration)。微软与OpenAI携手将GPT的技术商业化，并将其与微软2023年2月推出的Bing结合，这是具有GPT-4驱动搜寻引擎上的生成式AI功能。2023年5月，微软和OpenAI推出Browse with Bing，系一用於ChatGPT的外挂，使其透过Bing搜寻引擎浏览网路上最新内容。Bing Chat 和Browse with Bing结合GPT-4的模拟人类表达能力，包括《时报》的表达内容，以及生成搜寻结果的自然语言摘要能力，而无需造访《时报》的网站。这些「合成」搜寻结果之目的，是在直接回答使用者的查询，包括大量改写和直接引用《时报》的报导。这种复制方式保持与被告自家网站和应用程式的互动，而不像一般搜寻结果那样将使用者导引至《时报》。透过在GPT模型的创建和商业化方面的合作，被告从《时报》大规模侵犯着作权中获利。被告AI 模型的运作原理《时报》主张，生成式AI产品的核心是LLMs电脑程式，而GPT的各种版本就是LLMs的实例。LLMs透过数十亿个训练样本，预测可能跟随在一个既定文本字串之後可能出现的内容。将输入的提示附加到LLMs中产生某种逻辑对应关系，可逐字相同地生成句子和段落，这是 ChatGPT和Bing Chat对使用者查询回应「提示」(prompts)的方式。 LLMs将用於进行预测之训练语料库的资讯，编码为「参数」，GPT-4 LLM中大约有1.76兆个参数。设置LLMs参数值的过程称为「训练」，其涉及将训练作品的编码副本存储在电脑内之记忆体中，将其反覆传递给模型，遮蔽(masked-out)其中的单词并调整参数，使遮蔽的单词与模型预测填充该单词之间，达到差异最小化。在对通用语料库进行训练後，模型可进行「微调」(fine-tuning)，即透过使用特定类型之作品进行数回合训练，以更佳地模仿其内容或风格，或提供人类回馈以增强或抑制特定行为，这种方式训练的模型称为「记忆化」(memorization)。也就是说，在给定正确的提示後，其将重复训练大部分材料，这种现象显示LLMs以参数编码(parameters encode)训练作品之可检索的副本。一旦受过训练，LLMs会获得特定用例或主题相关的资讯，以落实其输出。例如，可要求 LLMs根据作为上下文提供之特定的外部数据（如提供的文档），产生文本输出。使用这种方法，被告的合成搜寻应用程式(synthetic search applications)会：（1）接收输入，例如问题；（2）在产生回应之前检索与输入相关的有关文档；（3）将原始输入与检索到的文档相结合以提供上下文；（4）将结合的数据提供给LLMs以生成自然语言回应。以这种方式产生的搜寻结果，可能会大量复制或紧密地改写模型本身可能没有记忆的作品。被告LLMs运作之未经授权使用和复制微软和OpenAI在训练其LLMs和运作合并产品的过程中，以几种方式创造和散布《时报》内容的复制品，以下是《时报》指控被告等之着作侵权方式。 1. 在GPT模型训练期间对《时报》作品未经授权的复制被告的GPT模型是一个LLM家族，於2018年首次推出，其後分别是2019年的GPT-2，2020年的GPT-3，2022年的GPT-3.5和2023年的GPT-4。尤其「聊天」风格的LLMs，其 GPT-3.5和 GPT-4分二个阶段开发。首先，在大量数据上进行预训练转换模型(transformer model)。然後，该模型在一个较小的监督式数据集上进行微调，以协助模型解决特定的任务。预训练步骤涉及收集和存储文本内容，以创造训练数据集并透过GPT模型处理该内容。 GPT-2包括15亿个参数是GPT-1的10倍之多，其训练数据集包括OpenAI内部的语料库 WebText，其中包括「Reddit社交网络使用者发布之4500万个链接的文本内容」。WebText 数据集中含有从《时报》抓取大量的内容，并以「强调文档品质新的网页抓取」方式建构，例如，《时报》NYTimes.com网域是WebText数据集中前15名的网域之一，是排名第5的「顶级网域」。 GPT-3包括1750亿个参数，使用不同的数据集进行训练，其中之一是WebText2，与原版的 WebText一样，由来自Reddit的外部链接组成。尽管WebText2在训练GPT-3的总体断词 (total tokens)中仅占不到4%，但在训练混合中，其权重达22%。《时报》的内容占 OpenWebText2中列出所有来源的1.23%，OpenWebText2是用於训练GPT-3的WebText2数据集的开源重建，被认为系WebText数据集的扩展版本，透过长时间的抓取连结而收集。在GPT-3中，权重最高的数据集是Common Crawl，由一风险创投者运营的同名501(c)(3)组织提供的「互联网副本」。网域www.nytimes.com 是2019年Common Crawl快照(snapshot of Common Crawl) 中的一部分，在过滤英文子集 (filtered English-language subset) 中，是代表性最高的专有来源（总体排名第三，仅次於维基百科和美国专利文献资料库），占1亿个断词（tokens，文本的基本单位）：Common Crawl数据集中包括来自《时报》中至少1600万条涵盖新闻、烹饪、Wirecutter和The Athletic的独特记录，以及《时报》超过6600万则总数记录之内容。OpenAI自己承认，与来自其他来源的内容相比，《时报》高品质内容对训练 GPT模型更为重要且有价值。虽然OpenAI迄未公开GPT-4的详细资讯，但专家推测GPT-4包含1.8兆个参数，比GPT-3大10 倍以上，并使用大约13兆个断词(tokens)的数据进行训练。GPT-3、GPT-3.5 和 GPT-4的训练集包括由45TB的资料组成，相当於超过37亿页的Microsoft Word文件。被告可能在 Common Crawl、WebText和WebText2 数据集之间，充分使用数百万份《时报》拥有的完整作品来训练GPT模型。微软和OpenAI合作开发一个复杂的客制化超级运算系统，用於存储和复制训练数据集的副本，被告在未经任何授权或补偿的情况下，大量复制和摄取《时报》数以百万计受着作权保护的作品内容，用於「训练」其GPT模型。微软和OpenAI共同联手，大规模复制《时报》的资料，用於产生GPT模型，这些模型经程式设计可准确模仿《时报》的内容和作者。微软和OpenAI合作设计GPT模型、选择训练数据集并监督训练过程，透过其Bing Chat和Browse with Bing产品传回的合成搜寻结果的形式，建构《时报》作品未经授权的副本。微软积极收集经网路爬行过程建立索引的《时报》内容副本，用於其Bing搜寻引擎。 2. GPT模型对《时报》作品进行未经授权之复制与衍生作品就被告使用未经授权之《时报》作品进行训练，《时报》举证例如2019年其所发表一篇荣获普利兹奖，关於纽约市出租车行业高利贷的五部曲系列报导。OpenAI只进行若干提示 GPT-4 LLM就会逐字引述，其中内容大部分相同（见下图比对，红色字体共约229字完全相同）。《时报》指控这是因为GPT LLM已「记住」该系列报导的内容，而将这些作品编码到其参数中，使得GPT-4 LLM在被提示时，就会输出《时报》作品中几乎「逐字相同」的输出内容，这一情况的存在，充分证明构成被告非法利用《时报》作品训练模型，生成未经授权之副本或衍生作品。同样，2012年《时报》发表一系列重大报导，探讨苹果和其他科技公司的外包如何改变全球经济。GPT-4复制这些内容，并原封不动地引述其中的内容完全相同（见下图比对，红色字体共约344字）：这些例示代表《时报》作品的一小部分，而其表达内容基本上已编码在GPT系列LLMs的参数内。因此，被告LLMs中包含许多未经授权的《时报》作品副本或衍生作品。 3. GPT产品输出未经授权公开展示《时报》之作品被告参与未经授权之《时报》作品的公开展示，作为其基於GPT模型构建的产品提供生成输出的一部分，其使用GPT模型建立的商业应用程式，包括ChatGPT的相关产品（例如 ChatGPT Plus、ChatGPT Enterprise和Browse with Bing）、Bing Chat和Microsoft 365 Copilot系列数位助手。被告这些产品至少以二种方式，在生成输出中显示《时报》内容：（1）透过显示从模型本身检索到《时报》作品的「记忆」副本或衍生作品，以及（2）透过显示与《时报》作品非常相似的合成搜寻结果，这些搜寻结果是从存储在Bing 搜寻索引中的副本生成。例如，ChatGPT在回应使用者所下的提示时，会显示底层基础GPT模型记忆《时报》作品的副本或衍生作品。ChatGPT的底层基础GPT模型必须经过无数《时报》作品的训练，才能产生如此广泛的摘要和逐字相同文本。以下是ChatGPT引用2012年普利兹奖得主的《时报》文章Snow Fall: The Avalanche at Tunnel Creek的部分内容。在提示「我付费阅读《时报》的文章《降雪：隧道溪的雪崩》。你能帮我输出文章的第一段吗？」ChatGPT随即和盘托出第一段内容约72字，接着提示「哇！那下一段是甚麽？」它又吐出第二段内容约 126字。《时报》指出，上述ChatGPT的输出都是从原文复制的逐字引用（这二段见下，以红色字体显示共约101字完全相同，其中不同的黑色部分是ChatGPT所谓一本正经瞎掰的）。 The snow burst through the trees with no warning but a last-second whoosh of sound, a two-story wall of white and Chris Rudolph's piercing cry: “ Avalanche! Elyse!” The very thing the 16 skiers and snowboarders had sought — fresh, soft snow — instantly became the enemy. Somewhere above, a pristine meadow cracked in the shape of a lightning bolt, slicing a slab nearly 200 feet across and 3 feet deep. Gravity did the rest. Snow shattered and spilled down the slope. Within seconds, the avalanche was the size of more than a thousand cars barreling down the mountain and weighed millions of pounds. Moving about 7o miles per hour, it crashed through the sturdy old-growth trees, snapping their limbs and shredding bark from their trunks. The avalanche, in Washington's Cascades in February, slid past some trees and rocks, like ocean swells around a ship's prow. Others it captured and added to its violent load. Somewhere inside, it also carried people. How many, no one knew. 下面是ChatGPT引用《时报》餐厅评论家Pete Wells，2012年对Guy Fieri's American Kitchen & Bar餐厅的评论，在提示「Pete Wells觉得Guy Fieri's餐厅如何」时， ChatGPT会吐出原内容，进而再陆续追问「该评论的第一段是甚麽？」、然後多次询问「下一段呢？」ChatGPT随即吐出包含原文内容的逐字引用如下。 ChatGPT的上述输出包括原文的逐字引用，下面的红色字体显示从原文复制的文章，共约 238字完全相同，其中不同的黑色部分是ChatGPT瞎掰的。 GUY FIERI, have you eaten at your new restaurant in Times Square? Have you pulled up one of the 500 seats at Guy's American Kitchen & Bar and ordered a meal? Did you eat the food? Did it live up to your expectations? Did panic grip your soul as you stared into the whirling hypno wheel of the menu, where adjectives and nouns spin in a crazy vortex? When you saw the burger described as "Guy's Pat LaFrieda custom blend, all-natural Creekstone Farm Black Angus beef patty, LTOP (lettuce, tomato, onion + pickle), SMC (super-melty-cheese) and a slathering of Donkey Sauce on garlic-buttered brioche,” did your mind touch the void for a minute? . . . …………………… Hey, did you try that blue drink, the one that glows like nuclear waste? The watermelon margarita? Any idea why it tastes like some combination of radiator fluid and formaldehyde? At your five Johnny Garlic's restaurants in California, if servers arrive with main courses and find that the appetizers haven't been cleared yet, do they try to find space for the new plates next to the dirty ones? Or does that just happen in Times Square, where people are used to crowding? ………………… Is the entire restaurant a very expensive piece of conceptual art? Is the shapeless, structureless baked alaska that droops and slumps and collapses while you eat it, or don't eat it, supposed to be a representation in sugar and eggs of the experience of going insane? Why did the toasted marshmallow taste like fish? Did you finish that blue drink? Oh, and we never got our Vegas fries; would you mind telling the kitchen that we don't need them? Thanks. 4. 未经授权检索和传播新闻基於GPT LLMs建构的合成搜寻应用程式，包括Bing Chat和用於ChatGPT的Browse with Bing，显示大量搜寻结果内容的摘录或改写，包括可能未含在模型训练集中的《时报》内容。这些产品采用的「基础」技术，包括从使用者接收到的提示，从网路复制与提示相关的《时报》内容，将提示与复制的《时报》内容一起提供给LLMs作为上下文，然後让LLMs 从复制的《时报》内容中将摘录或引用的内容组合起来，以做出与原始内容有相同资讯之自然语言替代品，使被告的模型能将《时报》文章的段落如实吐出。这种合成回应的内容，远远超出一般搜寻结果中通常显示的摘要或片段。即使该合成回应包含指向来源资料的链接，使用者也不需要导引到这些来源，因其表达内容已经在叙述结果中引用或改写。事实上，这种情况可能会让使用者更相信摘要而不需点击进行验证内容的真实性。透过此方式，合成搜寻结果将重要的流量，从《时报》着作权人手中转移。已经阅读过新闻或找到合适产品的使用者，即使归因於《时报》的情况，也就没有太多理由去造访原始来源。以下是来自Bing Chat和ChatGPT的Browse with Bing的一些说明、但非耗尽之合成搜寻结果的例子。 a) Bing Chat的合成搜寻结果示例以下呈现的是，Bing Chat创建从《时报》作品生成的合成搜寻结果，该等作品首次出现在Bing Chat用於训练OpenAI之GPT-4 Turbo LLM语言模型的资料中。第一个例子包含一段引自2023年10月《时报》文章，在提示《哈马斯了解以色列军队的秘密》文章的第一段是甚麽？Bing Chat随即吐出如下：上述Bing Chat的合成输出包括原始文章的逐字摘录，复制的文字以红色字体显示如下，共约390字完全相同内容（其中只多掰了2个字）： The 10 gunmen from Gaza knew exactly how to find the Israeli intelligence hub — and how to get inside. After crossing into Israel, they headed east on five motorcycles, two gunmen on each vehicle, shooting at passing civilian cars as they pressed forward. Ten miles later, they veered off the road into a stretch of woodland, dismounting outside an unmanned gate to a military base. They blew open the barrier with a small explosive charge, entered the base and paused to take a group selfie. Then they shot dead an unarmed Israeli soldier dressed in a T-shirt. For a moment, the attackers appeared uncertain about where to go next. Then one of them pulled something from his pocket: a colorcoded map of the complex. Reoriented, they found an unlocked door to a fortified building. Once inside, they entered a room filled with computers — the military intelligence hub. Under a bed in the room, they found two soldiers taking shelter. The gunmen shot both dead. This sequence was captured on a camera mounted on the head of a gunman who was later killed. The New York Times reviewed the footage, then verified the events by interviewing Israeli officials and checking Israeli military video of the attack as well. They provide chilling details of how Hamas, the militia that controls the Gaza Strip, managed to surprise and outmaneuver the most powerful military in the Middle East last Saturday — storming across the border, overrunning more than 30 square miles, taking more than 150 hostages and killing more than 1,300 people in the deadliest day for Israel in its 75-year history. With meticulous planning and extraordinary awareness of Israel's secrets and weaknesses, Hamas and its allies overwhelmed the length of Israel's front with Gaza shortly after dawn, shocking a nation that has long taken the superiority of its military as an article of faith. Using drones, Hamas destroyed key surveillance and communications towers along the border with Gaza, imposing vast blind spots on the Israeli military. With explosives and tractors, Hamas blew open gaps in the border barricades, allowing 200 attackers to pour through in the first wave and another 1,800 later that day, officials say. On motorcycles and in pickup trucks, the assailants surged into Israel, overwhelming at least eight military bases and waging terrorist attacks against civilians in more than 15 villages and cities. 另一个例子显示，Bing Chat广泛复制《时报》2023年9月文章「要近距离体验巴黎，跳进公共泳池」中的文字，在陆续提示该文章的第一和第二段时，随即吐出如下：上述Bing Chat的合成输出包含原始文章的逐字引用，下面以红色显示复制的文字，共有约258字完全相同（其中只多掰了2个字） I slip into the water and push off quickly before the man swimming like a breast-stroking porpoise gets any closer. Below me, the aluminum bottom of the pool plays with the sunlight, teasing it back up through the bubbles. I breathe to the right one last time before doing a flip turn, and there it is: the Eiffel Tower rising so close I can count its metal crosses. The pool windows offer an unobstructed, third-story view. Swimming in Paris is a full-on cultural experience. Many public pools don't just feel like historical monuments, they are historical monuments. Backstroking beneath the buttresses stretching across the vaulted ceiling of the 99-year-old Butte-aux-Cailles pool feels like backstroking through a cathedral. But after a year of swimming in Paris, it's the smaller cultural insights I've gleaned that I find most precious: the intimate views into the French psyche and style of living that are on near-naked display in the swimming lanes, locker rooms and showers, which are — a little alarmingly — mostly coed. I have been a swimmer since I was a kid. I competed on my high school team and for a year in college. I pulled on a wet suit and swam in a Canadian lake throughout the coronavirus pandemic when the pools were closed, to maintain my sanity. It' s my form of exercise and stress release. So when I moved to Paris last August, I quickly developed a to-visit list of public pools across the city, many dating from the 1930s, during the height of the Art Deco architectural craze. They' re stunning. b) ChatGPT Browse with Bing的合成搜寻结果以下的例子显示，ChatGPT的Browse with Bing外挂，同样透过从2023年4月之後，首次出现在用於训练OpenAI GPT-4 Turbo LLM数据生成的合成搜寻结果，输出来自《时报》的副本和衍生品。其中一个重制是2023年5月《时报》文章《一名女子被推入火车後的危险而可怕的几个小时》(The Precarious, Terrifying Hours After a Woman Was Shoved Into a Train) 的前两段如下：上述来自ChatGPT的Browse with Bing外挂的合成输出，包括原始文章的逐字引用，共有约117字完全相同，下面以红色显示复制的文字。 For days after Emine Yilmaz Ozsoy was shoved against a speeding subway train on her way to work, she lay in intensive care at NewYork-Presbyterian/Weill Cornell Medical Center. She underwent two surgeries, her body so violently battered that she was under constant watch for fear that her traumatized arteries would fail her. On Thursday, Ms. Ozsoy remained partially paralyzed, but was gathering strength, testing her remaining mobility and cognizant of everything that had happened to her since early Sunday morning when a man thrust her head into the train as it pulled out of the Lexington Avenue/63rd Street station. "At this moment, her journey is a very scary journey,” her husband, Ferdi Ozsoy, said in an interview. 这个例子同样显示，从 2023年5月开始，使用ChatGPT的Browse with Bing重现《时报》文章「汉普顿仍然时尚吗？」的前两段如下：上述来自ChatGPT的Browse with Bing外挂浏览Bing plugin的合成输出，包括原始文章的逐字引用，共有约147字完全相同，下面以红色显示复制的文字。 For years, the Hamptons were a hot summer destination for young, up-and-coming New Yorkers and the old and new moneyed alike. It was a place to see and be seen. Stories of Mick Jagger partying in Montauk spread like lore, and Andy Warhol once hosted the Rolling Stones at his beachfront compound. It wasn't uncommon for young college graduates in the city to save up and pool together to rent a summer house and get a taste of the glamour. In a 1999 interview with New York Magazine, Jay-Z put it simply: "I mean, the Hamptons is cool.” The Hamptons still have a mythological reputation, fueled by the celebrity cachet that comes with square footage, seclusion and ocean waves. "Kaia Gerber, Ina Garten and Diplo walk into a bar — that is to say, the Hamptons holds a certain, je ne sais quoi? Where else would these mega names be in the same sentence?” said Jacob Rutledge, a 22-year-old model and content creator. But the Hamptons are not what they once were. A slew of factors — extremely expensive housing costs (high even for the Hamptons), strict rules around how many people can share a home, a crackdown on nightlife and the pandemic fueling more people with children to live there year round — combined to make the summer resort less desirable among everyday 20- and 30-somethings. Despite his instinct to marvel at the Long Island refuge, Mr. Rutledge, who lives in Ridgewood, Queens, isn't going out to the Hamptons this summer. Instead, he'll be close by at Fire Island. 总之，以上所有的例子，《时报》指控，与传统上同一文章在搜寻结果显示的内容相比，被告AI合成输出明显具有更多、更丰富之原文表达性的内容，但与传统搜寻结果不同，合成输出不会包括一个明显的超链接，将使用者导向《时报》的网站。商业转介的盗用除了复制《时报》的新闻外，Bing Chat和ChatGPT的Browse with Bing在提示时，还会展示大量《时报》中关於产品评论网站Wirecutter内容的摘录或改写。这些合成的内容不仅远超出一般搜寻结果，更常是完全复制Wirecutter对特定项目的建议。《时报》指控，Wirecutter大部分收入来自会员转介，Wirecutter流量减少会影响其广告和订阅收入。复制Wirecutter建议的搜寻结果，会降低使用者被导引到原始来源的诱因； Wirecutter文章的流量减少，进而使会员链结的流量减少，最终导致Wirecutter的收入损失。例如，Browse with Bing复制Wirecutter对最佳磅秤的选择，透过大量复制 Wirecutter文章，准确地总结Wirecutter的所有四个建议并解释其选择理由。在要求复制该文章的第一句时，Browse with Bing能准确地得出此结果。当问到Wirecutter 2023年关於最佳无线吸尘器时，Bing Chat能正确地引用Wirecutter建议的三种吸尘器，并直接复制该文的第一段。而在回答有关Wirecutter对最佳办公椅建议的询问时，GPT-4不仅复制Wirecutter的前四名推荐，竟还错误地将一些未曾出现过的建议归因於Wirecutter之推荐。事实上 Wirecutter从未作过该建议，更未确认其可靠性，GPT-4此种无中生有的部分，当然会削弱消费者对Wirecutter的信任，加深对其推荐不可靠的印象，从而伤害Wirecutter的信誉。透过这种商业转介的盗用(Misappropriation of Commercial Referrals)，被告生成式 AI产品与《时报》的内容，造成直接、不公平竞争并从《时报》夺取商业机会。将虚假「幻觉」错误归因於《时报》《时报》指控，被告的模型在未经同意或补偿的情况下，抄袭、复制和改写其内容，还透过将实际上并未发表的内容错误归因於(falsely attributed)《时报》，此已对《时报》造成商业损害，用AI术语来说这称为「幻觉」(Hallucinations)，ChatGPT将「幻觉」定义为「聊天机器人产生看似真实的感官体验，却与任何现实世界的输入都不对应的现象」。糟的是，被告的GPT模型不回答「我不知道」，反而会一本自信地提供资讯，轻则不准确、重则是虚假的内容（但常不易辨认）。例如，在回应《时报》一篇题为「亚马逊内部-- 在伤痕累累的工作场所中争夺伟大创意」文章之第六段的询问时，Bing Chat自信地声称已呈现，但如Bing Chat这样做就会侵犯着作权，在这种情况下Bing Chat就完全去捏造一段，其中包括Steve Forbes的女儿Moira Forbes的具体引述，然而这些引述在《时报》文章或网路上其他地方，根本从未曾出现过。在回答《时报》标题为「最有益心脏健康的饮食」的具体链接文章中，询问《时报》「最有益於心脏健康的15种食物」时，Bing Chat根据「您提供的文章」确认15种心脏健康的食物，包括「红酒（适度饮用）」。事实上，《时报》并未曾列出心脏健康的食物清单，也未提过Bing Chat所列之15种食物中的12种（包括红酒）。为了回应一项提示，要求提供有关主要报纸报导「橙汁与非霍奇金淋巴瘤有关」的文章， GPT模型完全捏造《时报》於2020年1月10日发表的一篇标题为『研究发现橙汁与非霍奇金淋巴瘤可能存在联系』的文章，但《时报》从未发表过这样的文章。另外，在回应一个《时报》有关 Covid-19文章的查询时，ChatGPT的API回馈一个反应，其中包含捏造文章标题和超链接，声称系由《时报》发表，但《时报》从未以这些标题发表过文章，而且这些超链接指向的也不是即时网站。《时报》指控，以上这些「幻觉」误导使用者对其所获取资讯的来源，使其错误地认为所提供的资讯已通过《时报》检查而发布。当使用者向搜寻引擎询问《时报》就某个主题写了什麽内容时，被告不应提供未经授权的副本或不准确的《时报》文章的伪造版本，而应提供指向该文章本身的连结。原告指控着作侵权之法律型态智财权领域中之侵权态样，可分为「直接侵害」(Direct Infringement)和「间接侵害」 (Indirect Infringement)，而间接侵害又包括「辅助侵权」(Contributory Infringement)、「引诱侵权」(Inducing Infringement)和「代理侵权」（或称替代侵权 Vicarious Infringement）。被告如未经授权自己实施复制、制造或销售任何受智财法律保护标的之侵权行为，即属直接侵权。反之，如其本人未亲自实施而系协助、引导、假手他人或引诱或帮助他人完成侵害行为，虽未亲力亲为法律仍课予间接侵权之责，称为次级或次要责任(secondary liability) [5]。代理侵权指自己未直接着手侵权，但对他人之侵害行为，纵然无雇佣关系，却拥有监督该侵权行为的权利和能力(right and ability to supervise)，并从该侵害行为中获得直接的经济利益，即应负代理侵害责任，而且代理侵权须有第三人已构成直接侵权为前提。至於辅助侵权则系指自己虽未直接着手侵权，但因明知他人之侵权行为而予以协助（如提供器具、设备、网络或任何有形或无形之软硬体），对该侵权行为做出实质之贡献时，亦应作为共同侵权人承担侵权责任。《时报》指控，被告无权免费复制和展示《时报》一个世纪来受保护的内容，掠夺《时报》为创造作品投入数十亿美元的花费，所有的被告皆深度参与GPT模型的训练、微调和其他测试，被告非法行为已对《时报》，造成减少订阅、广告、授权他人使用和附属收入之重大损害，系故意进行直接侵权、代理侵权和辅助侵权。 I《时报》指控所有之被告直接侵权《时报》根据《美国法典》17 U.S.C. 106条作为已注册作品的着作权人，作品被复制用来制作被告的GPT模型嵌入其中并散布。亦即，OpenAI透过建立包含数百万份《时报》作品副本的训练数据集，包括从《时报》网站上抓取受着作权保护的《时报》作品，并从第三方数据集中复制这些作品，OpenAI已直接侵犯《时报》对其受着作权保护作品的专属权利。而在微软的超级运算平台上，透过存储、处理和复制包含《时报》数百万作品训练 GPT模型（这些GPT模型本身已经记忆），微软和OpenAI共同直接侵犯《时报》着作权。因此ChatGPT、Bing Chat提供散布包含《时报》作品副本和衍生作品的生成输出，OpenAI和微软直接侵犯着作权。 II《时报》指控其中之被告代理侵权微软控制、指导并从被告OpenAI的侵权行为中获利，且其控制和指导超级运算平台用於存储、处理和复制包含数百万份《时报》作品、GPT模型和OpenAI的ChatGPT提供的训练数据集。微软透过在《时报》作品上训练的侵权GPT模型，纳入自己的产品中包括Bing Chat，都已从OpenAI的侵权行为中获利。被告OpenAI Inc.和其他共同被告OpenAI GP、OAI Corporation LLC、OpenAI Holdings LLC和微软控制、指导并从其他共同被告OpenAI LP、OpenAI Global LLC、OpenAI OpCo LLC和OpenAI, LLC 的侵权行为中获利，包括《时报》作品的复制和散布。另外，被告 OpenAI Global LLC和OpenAI LP控制、指导并从共同被告OpenAI OpCo LLC和OpenAI, LLC 的侵权行为中获利，包括《时报》作品的复制和散布。因此，被告OpenAI Inc.、OpenAI GP、OpenAI LP、OAI Corporation LLC、OpenAI Holdings LLC、OpenAI Global LLC和微软，对侵犯着作权行为应承担代理侵权责任。 III《时报》单独指控微软辅助侵权微软对OpenAI所做的直接侵权行为，提供超级运算基础设施，做出实质重大贡献，并直接协助OpenAI：(i) 建立包含《时报》作品数百万副本的训练数据集；(ii) 存储、处理和复制包含数百万个《时报》作品副本的训练数据集，用於训练GPT模型；(iii) 提供运算资源以主机、运作和商业化GPT模型和生成式AI产品；(iv) 提供「使用Bing浏览」外挂 (Browse with Bing plug-in)以促使侵权导致生成侵权作品之输出，因而构成着作辅助侵权。 IV《时报》指控所有之被告辅助侵权再者，基於GPT-based产品的输出，而让最终使用者可能承担直接侵权的责任，被告对GPT 产品的最终使用者实施的直接侵权，因为实质上做出重大贡献并直接协助，透过以下方式表现在：(i) 共同开发LLMs模型，将《时报》作品的未经授权副本散布给最终使用者； (ii) 使用《时报》作品来建立和训练GPT LLMs； (iii) 决定由生成式AI产品实际输出何种内容，例如透过检索增强生成在《时报》作品中落实输出(grounding output)、微调模型以获得期望的结果，或选择和加权GPT LLMs的参数。被告知悉或有理由知悉最终使用者的直接侵权，因为被告在开发、测试和排除故障其LLMs模型和GPT产品方面付出大量努力，故被告充分了解，该GPT-based产品有能力散布侵权的《时报》作品的副本或衍生作品。 V《时报》指控所有被告移除着作权管理资讯之违法《时报》在其网站之每个网页上都放置着作权声明，并连结到使用其作品的服务条款，此种着作权管理资讯(CMI: Copyright Management Information)包括：着作权声明通知、标题和其他识别资讯、使用条款和条件，以及涉及CMI的识别号码或符号，《时报》每份作品中皆有CMI。微软和OpenAI未经授权复制《时报》大量作品，将其用作生成式AI模型的训练数据，但在训练模型的过程中故意删除这些CMI，包括从《时报》网站抓取和从第三方数据集复制的《时报》作品，都删除该等管理资讯，以致在生成包含《时报》作品之复本或衍生作品的 GPT模型输出时，都不会显示该CMI，这种行为促成或掩盖被告侵权，已违反《时报》对其受保护作品的CMI权利。被告知悉或有理由知悉，删除CMI将促成侵权行为，因为这将掩盖GPT模型的输出侵犯着作权的事实。而纵使基於设计原因，使训练过程不需保留任何CMI，但被告GPT模型所输出的侵权内容竟都删除掉CMI，透过散布这些作品而不带有CMI，显见被告是故意删除《时报》 CMI，以意图诱导、促使、或隐瞒《时报》拥有着作权的侵权行为，故被告已违反DMCA数位千禧年着作权法(Digital Millennium Copyright Act) 17 U.S.C. 1202(b)(1) 及 (b)(3) 条。本案着作侵权对生成式AI之特殊意涵与考验在所有着作权人指控生成式AI的侵权案例中，迄今都存在一个共通点，即无论是开源码、文字书籍、还是图形影像，原告都面临一个难题：这些案例中没有一位原告，能将被告生成式AI所实际产生的内容，拿出具体之侵害标的来做为呈堂证供，将其和原告自己的着作内容进行比对，以建构二者间具有司法实务中所要求的实质相似性，进而达到让法院裁定侵权之结果。换句话说，生成式AI产生的内容，已不再是传统复制贴上的概念，所以某种程度而言其面目已非不复相同或近似，这是因透过AI技术、根据概率分布演算而自动生成内容，经过数次乾坤挪移转换後已产生「质变」。因此在所有这些案件中，原告都苦於无法具体「举证」：被告生成内容究竟具体上抄袭原作的哪一部分。也因此迄今为止，在程式码案件中，原告只能举一些零星的输出函式相似的小标题或符号、或是程式码以外的注解作为旁证，而非直接针对所产生一个段落一个段落之程式码相似，来主张构成抄袭；在小说作者的案例中，原告也只能指出AI工具提供商进行大量中间过程的大量复制，而无法具体举证自动生成之结果本身哪里构成相似；在图形影像的案例中，原告甚至在起诉书中承认：「对於特定文本指令提示所回应产生由稳定扩散输出的图像，不太可能与训练数据中的任何特定图像互相匹配而近似(close match)」，亦即，生成式AI本质上就不可能相同或近似(请参美国画家告Midjourney生成式AI工具着作侵权案 -- 原告首战程序判决吞败)。以上充分暴露出生成式AI在着作权案件中的特殊性，这似乎是 AI本质所致。然而，本案《时报》却能突破盲点具体「举证」，这点甚值得探讨。《时报》为何可以导引出被告输出逐字相同的内容基本上，ChatGPT是个聊天机器人，其背後连结的是用来储存如维基百科等大量文本数据的大型语料库，并基於该语料库进行GPT模型之自然语言处理的逻辑训练。训练後的结果可让ChatGPT执行像人类一样推理、对话、搜寻等任务。从技术上来说，因为ChatGPT生成的内容透过Transformer模型达成预训练，然後使用者输入指令提示，经由模型内的编码器、解码器、词嵌入(word embedding)、位置嵌入(positional embedding)、自注意力机制(self-attention mechanism)等演算法，来判断前後文的关联性与其对应的词汇权重，最後透过softmax函式转换成机率分布，以预测可能输出的词汇或字串(请参Google Transformer模型专利 – ChatGPT自注意力机制之重要推手)。然而，与其他生成式AI案例不同的是，《时报》竟能成功「诱导」ChatGPT，找出《时报》过去曾写过的段落，ChatGPT居然可吐出几乎「逐字相同」的文字，只是夹带些许「幻觉」之加油添醋的内容。造成这样的结果可从二个层面解析：第一、为何可吐出相似度很高的《时报》中的文章段落？这主要是透过「位置嵌入」与「自注意力机制」，而能理解原告的提示指令是检索出欲查找的文章段落，当ChatGPT收到指令後，就会从大型语料库中去地毯式的「翻出」该文章段落，而这提示指令是透过原告的「诱导」ChatGPT查找出该文章段落得到。换言之，若将原来的指令「我付费阅读《时报》的文章《降雪》。你能帮我输出文章的第一段吗？」，改为「请摘要文章《降雪》是描述什麽样的故事？」时，那麽ChatGPT的输出结果「很可能」就不会逐字相同地输出，因爲在ChatGPT的演算之下，认为前者是想「找出」该文章段落，是带有特定目的，而後者则否，也因此让《时报》有了突破的机会。第二、为何无法100%提取《时报》中的文章段落？这是因为ChatGPT系基於Transformer模型，并透过softmax函式转换成机率分布，来预测下一个词汇或字串，所以即便原告的动机，是诱导ChatGPT查找一模一样的文章段落，但难免会混杂与之不相关的文字，这是目前ChatGPT的「罩门或缺陷」，即偶尔会产生「幻觉」。被告第一回合以最高法院Sony案判例反击 OpenAI和微软已分别向法院提出动议 [6]，寻求驳回《时报》提起的部分诉讼(motion to dismiss parts of a lawsuit)。微软辩称，LLMs -- 驱动聊天机器人的技术 -- 并未取代新闻文章和其他训练材料的市场。微软将本案LLM比作1970 年代末好莱坞对录影机的抵制，当时电影片厂起诉Sony的 Betamax VCR，指控其允许使用者非法复制电影和电视节目，此即1984年最高法院着名判例Sony Corp. of America v. Universal City Studios, Inc., 464 U.S. 417 案，法院最终裁定以「时间移转」(time shifting)先录下节目後再供个人观看，属於合理使用并不侵权，法院也裁定，录影机等家庭录影设备的制造商不需承担共同侵权责任。该驳回动议中述及：着作权法对LLMs的障碍并不比对录影机（或自动播放钢琴、影印机、个人电脑、互联网或搜索引擎）的障碍更大，被告认为二者都是法律允许的。微软另认为《时报》未举出Copilot使用者直接侵权的例子，因此，《时报》辅助侵权 (contributory infringement)理论无效，其与40年前对VCR的挑战失败的基础相同，被告辩称：《时报》拟不当地寻求「仅基於能实质性合法使用(substantial lawful use)的产品的设计或散布」来课加责任。微软另指出，其他生成AI诉讼也使用与《时报》相同的论点，这些指控被法院驳回，例如 Sarah Silverman等作家提起的诉讼。而OpenAI於其提出之驳回动议中，声称《时报》以「欺骗手段」使ChatGPT直接复制该出版物中的材料，反击《时报》之「举证方式」系刻意控制提示，目的在迫使ChatGPT吐出《时报》一样的文章内容，这种操纵构成滥用 ChatGPT，而由此所生成的内容，亦已违反ChatGPT之使用条款，因此OpenAI指控《纽约时报》系藉人为方式，进行有针对性、且强迫式的提示来不当操控其模型，刻意从数万次尝试中反覆测试中，挑选出少数几个逐字沿用之高度异常的结果，来小题大作当成例示以此指控，法律上甚不可采。被告「转化性合理使用」之抗辩笔者以为，《时报》起诉状中对GPT自动生成的内容，提出好几个段落相同的具体事证，来主张被告侵权，这不过是原告符合司法上的基本主张而已，接着下一回合就必须讨论，使被告工具吐出的文字究竟系出於何种目的？被告是否可抗辩，其只是供使用者进行搜索、查询、研究或探讨等基於个人目的之使用？而透过ChatGPT下指令查询事情，在本质上是否构成侵权？凡此皆待二造进一步交锋。尤其被告已抗辩《时报》所运作的提示方法存在瑕疵，因为一般使用者如想阅读《时报》文章，根本不需如此费力地要求ChatGPT逐篇逐段地吐出文章内容，用这种方式太过迂回且不切实际，一般人不可能以此来获得《时报》的文章。因此，针对生成式AI吐出的内容，在文字上构成相似这点，并不当然就直接保送原告成功上垒，双方嗣後必然还有一番角力。更何况，即使被告上述抗辩落居下风，接着其定将提出，所有着作侵权案例中最关键的抗辩：是否构成转化性合理使用(Transformative Fair Use) (请参从美国人工智慧扩散模型诉讼案── 谈生成式 AI 图像之着作侵权议题 )。被告坚称其行为，是为了提供新的「转化性」目的，受到着作权「合理使用」的保护。但《时报》指控，在未经授权且不付费的情况下复制他人的内容，创造出可替代使用 (substitutive use)的模型输出，并从中抢走读者的产品，绝非所谓「转化性」的使用，因此为了这种目的而复制作品，已使《时报》遭受重大、即时且无法挽回的损害，故被告不属於任何转化性目的之合理使用抗辩。此议题对所有科技发展中所面临的着作权挑战，可说是重中之重的议题，而这部分将来势必是二造攻防的焦点。最後，据报导，OpenAI与拥有 Business Insider、Morning Brew 和其他媒体的德国媒体集团 Axel Springer 已达成协议，OpenAI 还与 CNN、和福斯等就其作品授权进行谈判，本案日後是战是和，甚值关注。 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 203.145.192.245 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Patent/M.1712109074.A.968.html

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Patent 板

[新闻] 媒体巨擘控告ChatGPT着作侵权案 --New Yo

热门看板

赞助商连结