[讨论] 评价黄金标准：随机对照试验的历史教我

时间Fri Jun 2 13:58:20 2017

评价黄金标准：随机对照试验的历史教我们的事翻译文章：　　Bothwell, Laura E., Jeremy A. Greene, Scott H. Podolsky and David S. Jones (2016). Assessing the Gold Standard — Lessons from the History of RCTs. The New England Journal of Medicine374(22): 2175-2181. 译者前言：本文因应Laura E. Bothwell博士於中央研究院历史语言研究所的专题演讲〈The History of Randmized Controlled Trails and the Political Battle for Reliable, Ethical Health Research〉，故针对Bothwell博士发表於《新英格兰医学期刊》（New England Journal of Medicine, NEJM）上的同一主题文章〈Assessing the Gold Standard — Lessons from the History of RCTs〉进行翻译，该文收录於新英格兰医学期刊2016年6月号〈改头换面的临床试验〉（The Changing Face of Clinical Trials）系列文章中。本文第一作者Bothwell博士於2014年取得哥伦比亚大学梅尔曼公共卫生学院（Columbia University Mailman School of Public Health）历史与伦理研究中心（The Center for the History and Ethics of Public Health）社会医学科学博士学位（Ph.D., Sociomedical Sciences），毕业後担任哈佛医学院及布莱根妇女医院药物流行病学与药事经济学教学研究部门研究员，并曾应邀在美国国立医学图书馆（National Library of Medicine）的非洲月活动进行关於种族与临床试验的历史演讲。本文的合作者还包括任教於约翰‧霍普金斯大学医学院（Johns Hopkins School of Medicine）医学史研究所（ Department of The History of Medicine）的药物史专家Jeremy A. Greene博士。他撰写与主编多本药物史相关着作，并和研究医学期刊背後幽灵写作（ghost writing）现象的科技与社会研究学者 Sergio Sismondo合编人文社会科学研究中关於药物研究的读本《 The Pharmaceutical Studies Reader》。此外还有甫出版《The Antibiotic Era》一书的哈佛大学医学院全球健康与社会医学研究所教授兼哈佛大学Francis A. Countway医学图书馆主席Scott H. Podolsky，以及曾参与编辑《What’s the Use of Race: Modern Governance and the Biology of Difference》一书的哈佛大学社会医学科与科学史研究所的合聘教授David S. Jones。过去台湾医界在相关期刊上虽偶有医学史与医学伦理的讨论文章，近期也有群学出版社出版的译作《脏血：塔斯基吉梅毒试验〉一书，但少有文史学者参与对话。如同这篇译文里 NEJM所示范的如何创造有趣的跨领域学术空间，愿台湾医界得以与医学史、医学人文、医学伦理、科技与社会研究有更密切的互动与对话。正文：过去70年来，随机对照试验（randomized, controlled trials, RCTs，又称随机控制试验、随机分派临床试验）已重新形塑医学知识与实作。由20世纪中叶临床研究人员以及统计学家所普及，随机对照试验旨在减少偏差并增进临床试验的准确性，并且通常做得不错。然而过去七十年来也见证了这新的「金科玉律（gold standard，译注一）」的诸多限制。关於医学与疾病的复杂性以及形塑医学知识生产与流通的经济和政治影响力，随机对照试验的科学史与政治史提供了经验及教训。随机对照试验的兴起医师和医学研究人员数千年来已尝试使用个案报告（case report）、病例报告（case series）、公开演示（public demonstrations）、见证（testimonials）、临床论理（ clinical reasoning）以及偶尔由临床试验来评估治疗处置。随着医学的科学性在十九世纪末期越发占有重要地位，医师接触临床研究的条件也越加严格。到了20世纪初，改革者已然引进许多临床试验技法来消除偏差，包含盲法（blinding）、试验组随机分派（ alternate assignment to trial groups）以及统计分析（statistical analysis）。 1,2英国流行病学家Austin Bradford Hill在1940年代统整出所谓随机对照试验研究方法，便是立基於这些早期的策略。Hill的成果也碰上二战期间与战後英国政府对合作研究的投入。比方说，新扩充的英国医学研究委员会（The Medical Research Council）即是支持施行随机对照试验的架构。随机对照试验最初受到的评价参差不齐。有的评论者担心其不给予控制组有希望的新疗法是否有违伦理。试验进行者则反驳道，随机对照试验得以确立新疗法是否优於给予控制组的标准照护。4其他人则认为亟需随机对照试验作为评估药厂在1950年代对新兴药物的疗效宣称，如抗生素、降血压药以及抗精神病药物。5,6如同一名期刊编辑在1956年所告诫的──「医师们应特别当心在药商的证据或其提供的认证基础上采纳新药。他们应当要求由公正第三方提供和解释清楚、无偏差、具足够人数对照且经充分研究後的证据」。7随机对照试验的拥护者人数渐渐胜过诋毁者人数。很快地，美国国家卫生研究院（U.S. National Institutes of Health）以及其他政府部门便加入英国资助随机对照试验的行列（如图一）。然而在学术圈及政治圈之外，一开始并不支持随机对照试验。制药商不愿意投入资源和时间到随机对照试验里，因为他们可以依靠专家见证以及个案报告的方式扩大产品的疗效宣称。3这种未受管控系统的不稳定性随着1961年沙利窦迈（Thalidomide）导致的悲剧变得显而易见，当时上千名怀孕妇女使用该药导致流行性的死胎及婴儿海豹肢畸形。美国国会於1962年对《美国联邦食品、药品和化妆品法案》提出《Kefauver─Harris修正案》作为回应，规定新药需在「充分和良好对照的研究中」证明有效。到了1970年，美国食品和药物管理局（the Food and Drug Administration, FDA）将这个修正案解释为新药上市所需的试验是随机对照试验。这些规定伴随战後美国制药业的成长，让美国开始成为随机对照试验的首要制造者（图二）。3欧盟理事会（Council of the European Communities）、日本政府和许多国家监管机构很快也实行类似的管制。久而久之，国家监管机构间开始合作建立临床研究的国际标准，进一步将随机对照试验系统化。10紧接着，为了在竞争激烈的市场中遵守管制并获得管制下新药适应症的批准，制药业成为随机对照试验的主要赞助者。到1990年代时，制药业已取代政府和医学界，成为随机对照试验的主要制造者（图一）。同一时间，临床流行病学者宣传随机对照试验是让医学更理性的最佳手段。11,12在1980 年代前期学者们已经将随机对照试验当作医学知识的黄金标准。13当实证医学（ evidence-based medicine）在後续数十年间晋升为主流，方法学上证据强度金字塔概念进而出现，其中金字塔底层是强度最弱的个案报告，金字塔顶层是强度最强的随机对照试验。不算金科玉律的黄金标准然而随机对照试验并未独霸医学知识生产。快速浏览医学文献可发现过去的研究方法仍有其价值，包含病例报告甚至是个案报告。14-16观察性研究的新方法相继出现，例如在日常照护的情境下使用大型资料库中病人各式治疗的相对效率（efficiency）以生产比较研究的效用（effectiveness）数据（译注二）。17,18医师除了经验资料外，也仍旧仰赖生理学原理。冠状动脉血管成形术及血管支架置放术得以崭露头角并非因为成功的随机对照试验，而是技术的直观逻辑以及血管造影提供令人信服的影像证据。19 当随机对照试验已成为制药研究的标准，临床研究者仍努力将其适用於其他医学领域。虽然精神科医师进行了许多心理治疗的随机对照试验，但批评者认为以这种方式评估长期且高度个人化的疗法并不恰当，有时甚至不可能评估。20一些心理治疗的大型试验便因这类的方法论考量而遭忽略。21,22此外，因为随机对照试验用在精神药物比心理治疗更可行，因此精神药物的治疗证据相较於心理治疗不成比例地更加稳固。虽说这个差异使得药厂受益，它也可能助长精神照护往药物倾斜的不全面发展。3,23 外科手术的随机对照试验也面临相似困境。外科医师们於1950年代开始进行随机对照试验，举例来说，运用假手术控制组测试内胸动脉结紮对心绞痛治疗的功效（efficacy）（译注二）。24然而当越来越多外科手术的随机对照试验出现在1960和1970年代，外科医师们却越加认清试验的限制：每个病人有着独特的病理学表现，每个外科医师有着相异的技能，每场手术涉及关於麻醉、术前治疗、手术方法、手术仪器、术後照护的无数选择，这些都与临床试验标准化的需求相违。25假手术不能用於重大手术中，这也限制了盲性试验的使用时机。这些考量在冠状动脉绕道手术的随机对照试验的争论中爆发。当首次大型的冠状动脉绕道手术随机对照试验显示大部分患有慢性稳定型心绞痛的病人接受冠状动脉绕道手术并未带来显着的存活效益（survival benefit）时，26,27批评者反击说：试验参与者太过健康，外科医师过於缺乏经验，手术致死率太高，统计分析不可靠等。28,29着名的外科医师们认为随机对照试验不适合用於手术治疗。30过去在发展冠状动脉绕道手术占有重要地位的René Favaloro认为「随机对照试验发展至今达到如此高的科学地位及接受度，使其几乎如同宗教上的神圣化……如果过度仰赖於它可能带来危险。」31 一个长久存在且可能难以解决的问题在於随机对照试验的时间因素考量和快步调的创新之间存在的差异。1976年关於评估冠状动脉绕道手术最佳方式的讨论中，外科医师抱怨说：「当我们在充分的时间内累积足够数据时，我们会发现手术技术已然有所改善或治疗方针改变，又或是两者同时发生，而让试验结论不再适用。」32大型的随机对照试验常需要花很多年招募病人、追踪病人、并进行分析。在治疗方针迅速演变的情况下，随机对照试验的结果似乎在发表前便过时了。当COURAGE试验（Clinical Outcomes Utilizing Revascularization and Aggressive Drug Evaluation，使用血管重新灌流和积极药物治疗的临床结果评估）於2007年显示冠状动脉成形术的理想功效结果不如预期时，该治疗的拥护者认为是因为试验中使用的传统金属支架已被涂药血管支架取代而不再适切。34这种假定任何创新都较为优越的逻辑，创造了一个类似演化生物学上「红心皇后效应」的情境（译注三），其中试验者得卖力跟上不断出现的创新。35 即使是健全的随机对照试验有时也无法影响医疗实作。在1960年代末期，大学联盟糖尿病计画（University Group Diabetes Program）精心设计的试验显示糖尿病用药 Tolbutamide和心血管疾病死亡率的增加有关。然而在持续超过十年关於试验进行和诠释的争论後，Tolbutamide的处方不减反增。类似的情节也发生在2002年，当公开募资的 ALLHAT试验（Antihypentensive and Lipid-Loweing Treatment to Prevent Heart Attack Trial，抗高血压和降血脂治疗预防心肌梗塞试验）显示Thiazide类利尿剂学名药在治疗高血压的效果上与新上市且较昂贵的CCB类（calcium-channel blocker）和ACEI类（angiotensin-converting-enzyme inhibitors）药物相当时。由於这些发现受到药厂及医师们质疑，新的抗高血压药物其销售成长仍优於旧的学名药。38另一个2002年的假手术随机对照试验则挑战了传统认为关节镜清创手术对慢性退化性关节炎有益的看法。39尽管这个发现被重复证实，许多骨外科医师仍不正视这些研究成果，继续执行手术。40 另一方面，一些随机对照试验的结果原已视为真相被接受，但後来证实它们缺乏外部效度（external validity）。从建立适当的纳入条件，标准化介入治疗，到决定最相关评估结果，随机对照试验自有其挑战。这些限制促使研究人员追求其他研究方法，虽说其他方法也有其限制。社会和道德上的考量也为一些随机对照试验的正当性带来挑战。1980年代後期爱滋危机使得许多张力台面化。病患感到沮丧的是随机对照试验会延迟反转录药物的核准，需要在试验完成前找到获得药物的门路。41临床工作者则在医师和科学家的角色之间感到冲突。42 倡议者终获临床研究的支持，变通的方式包括替代终点（surrogate end points）的使用（译注四），美国食品和药物管理局有条件的核准，以及双轨制在试验外提供药物的管道。不过，批评者忧心松弛的标准会减损科学的严谨性，并助长制药业推动法规松绑的危险提案。在发展中国家所执行的爱滋病毒感染治疗随机对照试验於1990年代爆发伦理争议，特别是这些国家固然照护水平不高，但是否就能将原本在欧美认为是不伦理的作法合理化，把它们当作新药的安慰剂对照组。NEJM期刊编辑Marcia Angell便谴责这些「盲从听命者」（ slavish adherence），在这个作法会导致伦理原则的退守时还依然故我地操作随机对照试验。上述争议引起社会科学家和政策学者的关注。正如社会学家Steven Epstein所言，随机对照试验已变成「协商可信度、风险以及义务的重要场域」。当随机对照试验发生在医学、社会及政治脉络中，「比起解决争议，随机对照试验会反映并推动争议自身」。46历史学家Harry Marks认为随机对照试验不应只被视为科学技术，而是社会事件──「即使最简单的随机对照试验也是社会秩序的协商下的产物（有些有争议，有些则无），充斥着决定以及未经检验的前提。」36虽然随机对照试验的发展是用来生产普遍的、普世的生物医学知识，但它们仍和在地的社会条件、经济和政治深深地纠缠在一起。知识生产的经济学和地理学随机对照试验也无意间限制了医学知识的生产者。当个案报告构成治疗功效的有效证据时，单就一位医师便得以用临床经验写下可能改变临床实作的文章。然而随机对照试验需要具大力支持的合作研究。随机对照试验随着时间已成为官僚化、公司化的大型企业，需要所费不赀的架构进行研究设计、病人照护、纪录保存、伦理审查以及统计分析。到了21世纪，光是第三期临床试验一次就需要花3000万美元甚至更多。47因此，即使试验资助者时常来自北美、西欧或东亚，但研究常在其他地方进行。随之而来的是随机对照试验反映工业化区域不成比例的研究兴趣。随机对照试验的高成本还有其他意想不到的後果：在缺乏价格管制的市场中它们正当化处方药的高开发成本。49同时，最近政策制定者提出诸如21 世纪医疗法案（21st Century Cures Act）为管制法规带来改变，这将以增加效率的名义降低随机对照试验在药物核准上的影响力。此外，一方面因为试验费用高，研究者及其资助者对做出阳性试验结果有极大兴趣。相当多的证据显示业界资助的试验比公开募资的试验更容易产生有利的结果。50而且到了1990 年代明显倾向发表阳性结果而非阴性结果，从而有损於医学知识。监管机构和期刊主编透过要求披露资金利益冲突和注册所有临床试验来回应这些问题，努力提高随机对照试验的透明度，以便阴性结果的试验不会单纯消失。随着随机对照试验发展成为高成本、高获利的营销工具，临床试验产业跟着蓬勃发展。委托研究机构（Contact Research Organization）在1970年代末期出现，如今已成为市值 250亿美元的产业。54委托研究机构促成美国的试验主持人从学术型教学医院的医师科学家大体上转变为在私人机构中工作，以接案为主的非学术型医师。55委托研究机构也在有利研究进行的中等收入国家寻找过去没接受过治疗的海外研究者。尽管试验产品在试验完成後不一定能提供给当地民众，各国现正争相说服制药业和委托研究机构说该国的管制、临床、公共卫生状况等适合执行试验。48但随着研究场域多样化，研究目标并未跟着多样化：大多数临床研究仍集中在对公共卫生影响有限，但在高收入国家具有巨大市场潜力的药物。低收入地区的结核病、疟疾和其他病害几乎未受到重视。制药业在全球知识生产越发举足轻重的角色，已然对现代随机对照试验该如何供公共卫生使用提出深刻的伦理和政策问题。随机对照试验的过去、现在与未来到了21世纪之初，随机对照试验已达到治疗证据黄金标准的地位，但它的限制也具有充分证据。医师们继续追求其他比随机对照试验更快、更便宜或能处理随机对照试验无法解决的问题的知识生产方式。然而在医学场域外，随机对照试验逐渐被效仿，甚至被理想化。卫生政策研究者找寻如同俄勒冈州医疗保险实验（Oregon Medicaid experiment）般罕见的实验场域供随机分配得以执行或不经意地达到随机分配。56发展经济学者将随机对照试验视为主要的新实验方法，宣称该方法的潜力「得以在21世纪向社会政策掀起革命，如同随机分配试验在20世纪对医学掀起的革命般」。57随机对照试验延伸到其他领域时也受到熟悉的批评。以经济学者Angus Deaton为例，他认为随机对照试验「并不直接比其他证据来的强，随机对照试验在证据强度上并不占有特殊地位，也不会和其他方法在证据上有强弱的区别」。然而尽管随机对照试验有其限制，但它已对医学研究掀起革命，并透过澄清无数处置的优缺点来提高医疗保健的质量。受到政府资助和食品药物管理局授权的临床研究人员使用随机对照试验来推进临床研究的理论和实作。评论者越来越善於查出随机对照试验的缺陷，使得试验者在自身实验设计时更加警惕。从历史的角度来看，随机对照试验并非个别稳定的技术，而是随着医师们不断对临床研究进行修订而将研究完善的方法演进。随机对照试验作为解决医学争议唯一权威仲裁方式的想法已让位给更务实的做法。试验者继续寻找新的知识生产方式，从统合分析（meta-analysis）到後设性的注册对照研究（ controlled registry studies）都能轻易囊括大量的多元病人。观察研究法被视为和随机对照试验互补，而新的监测形式则可以将随机对照试验镶入电子病历的资料收集结构中。虽说随机对照试验也许是最关键的部分，但现在也只是一堆用於评估功效以及管制治疗市场的研究工具的一部份而已。这样的状况可能会随着近来个人化医疗或精准医疗的转向（回溯）继续演变。由於医学关注於个别患者独特的病生理以及共有的病徵，随机对照试验产生的普同数据的适用性将受到更详细的查验。我们已来到随机对照试验历史的关键转折。原先设计来减少研究偏差的随机对照试验，如今已成为利益互相冲突之场域，值得仔细研究。药商和医疗器材商追求能向新群体推销商品的数据。在临床现场实作的医师希望能有可靠的数据证明那些治疗对他们的病人最有利。随机对照试验为上述这两个目标服务，它也同时作为历史存在反映科学、历史和经济发展。了解其中错纵复杂的历史使我们得以更具批判力和有效地评估随机照护试验。鉴於随机对照试验在越发不平等的全球卫生研究中所扮演的角色，我们如何展望未来的试验可以处理对医学和全球卫生真正具有重大意义的问题？处理这些随机对照试验在历史上的偶然面向，将会是对提升医学研究可信度和用途的学术研究者、产业研究者以及政府官员的一场攸关其角色和义务的彻底检验。 http://stssonata.blogspot.tw/2017/05/blog-post_92.html -- 中国雾不散，岛屿天不光 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.109.140.120 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/STS/M.1496383104.A.C4D.html

1^F：推 Bastain: 推阿 36.230.154.88 06/02 16:25

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

STS 板

[讨论] 评价黄金标准：随机对照试验的历史教我

热门看板

赞助商连结