作者mulkcs (mulkcs)
看板Cognitive
标题Re: [新知] 统计程式出bug,15年来的大脑研究作废?
时间Fri Jul 15 22:03:55 2016
这篇回复的比较好
http://cryofall.blogspot.be/2016/07/blog-post_15.html
本文转录自谢伯让的脑科学世界
两周前,PNAS 上的一项研究指出,十五年来将近四万篇的「功能性磁振造影」(fMRI)相
关论文可能都有问题!红透半边天的 fMRI 脑造影研究,真的只一种即将崩盘的「新颅像
学」吗?脑造影研究是否会全面崩盘呢?
简单快速的答案是,不会。那大家为什麽会喊的如此耸动?原文到底说了什麽?脑造影研
究究竟有什麽潜在的问题呢?以下就来帮大家分析一下这其中的眉角。
--
1. 原文说了什麽?
--
PNAS 这篇文章其实出发点很单纯,就是想看看 fMRI 真实资料中出现「假阳性结果」的
机率(false positive rate)有多高。这里所谓的「假阳性率」,就是看起来像是「真
讯号」、但其实却是由随机杂讯所致的「假讯号」。
检视假阳性率的做法也很简单,就是使用「不应该出现任何真讯号的资料」,然後分析看
看会跑出多少假阳性结果即可。
原文中的其中一项分析,就是使用这种方法。作者先取得 499 人的脑静息状态资料(
resting-state fMRI data),然後随机抽出 20 人为一组,接着用三种大家常用的资料
分析软体、以及各种常用且默认的基本预设参数、并把资料当成「任务式资料」(
tasked-based fMRI data)来进行分析并统计结果。(每一种软体和参数组合,都重复抽
算 1000 次)。
由於这些 fMRI 资料是「脑静息状态资料」,也就是受试者在没有进行任何任务或认知活
动时的脑状态,理论上来说,上述的分析结果应该只会有 5% 的大脑区域因为随机杂讯而
出现「假阳性结果」。
但是真正的分析结果一出,众人傻眼,「假阳性结果」的出现机率竟然高达 70%。
--
2. 为什麽这假阳性机率这麽高?
--
关於这一点,基本上是个统计学问题。科学家在测量脑中每一个「体积元素」(voxel,
以下简称「体素」)是否真的有讯号存在时,必须要把随机杂讯列入考量。
有时候,「体素」中根本没有真的讯号,但是因为随机杂讯很高,因此会出现假阳性讯号
,这也就是统计上的第一型错误(Type I error)。
由於杂讯无所不在,因此这种错误不可避免,唯一可以做的,就是透过一些假设来算出这
种错误的出现率。比方说,我们可以假设随机杂讯是常态分布,然後估算出各种不同随机
杂讯强度的出现机率。
一般来说,超强随机杂讯的出现机率都很低,因此如果我们观察到的讯号越强,它是随机
杂讯的机率就越低。大家常常看到 p<0.01 这样的门槛值,意思就是:这个结果只有小於
1%的可能性是因为随机杂讯所导致的假阳性结果。
如图(部落格图三:
http://cryofall.blogspot.tw/2016/07/blog-post_15.html),杂
讯导致的结果呈现高斯(常态)分布,虽然有时候会观察到很强的讯号(绿色部份),但
它们仍有可能是随机杂讯所致。
--
多重比较问题
--
好了,上面的方式,就是只有处理单一体素(或单一一项观察或检验)时所用的统计方式
。但是当我们必须检验好几次、或同时检验好几个体素时的时候,就又有新的问题出现。
比方说,如果我们同时检验 10 万个体素,由於每个体素都有 1%的假阳性机率,结果就
是 10 万个之中大约有 1%的体素会出现假阳性,也就是约 1000 个体素,算是非常大的
一个数字!
这就是统计上的「多重比较问题」(multiple comparison problem),必须要进行额外
的校正才行。校正的方法有很多种,其中一种方法,就是去看看这些 p<0.01 的体素有没
有在空间上相连。
这个想法的背後假设是:如果它们真的是随机的假阳性体素,那麽应该会随机四散在大脑
的三维空间中,相反的,如果它们全都在空间中相连形成聚落(cluster),那麽就比较
有可能是真的讯号。
但是,就算这些假阳性体素真的是随机四散,它们仍然有可能恰巧在空间中形成聚落不是
吗?
比方说,我在达特茅斯念的同班同学班尼特(Craig Bennett),就曾经把死鲑鱼放入
fMRI 的机器,然後播放一些图片给死鲑鱼看。当他分析死鲑鱼的大脑反应时,竟然发现
有些脑区在「播放图片给死鲑鱼看时」比较活跃。
部落格图四:
http://cryofall.blogspot.tw/2016/07/blog-post_15.html
很显然的,因为鲑鱼是死的,根本看不到用来刺激大脑的图片,所以这些活跃的脑区必然
只是随机杂讯所导致的假阳性聚落而已。这项有趣但重要的研究,也让班尼特拿到了
2012 年的搞笑诺贝尔神经科学奖。
好了,既然这种「假阳性聚落」可能会出现在大脑中,我们当然就得再透过一些假设,来
估算一下各种不同大小的「假阳性聚落」的随机出现机率,然後再加设一个门槛值来进行
筛选。
--
关键的错误
--
而关键的错误,就是出现在「到底该用怎样的假设」来估算各种不同大小的「假阳性聚落
」的出现机率!?
现在大家所用的分析软体中,大都采用了高斯随机场理论(Gaussian random-field
theory , RFT),这个理论假设讯号在脑中出现时,会呈现高斯形态分布,并藉此来估算
完全独立的体素数目以及「假阳性聚落」的出现机率。
没想到,PNAS 这篇研究在进一步分析後却发现,脑中讯号的分布并非总是呈现均匀的高
斯形态。也因此,这个可能错误的假设,就导致了错误的门槛值,使得大家低估了假阳性
聚落的出现机率。
这篇文章指出的另外一个问题,则是在其中一个分析软体(AFNI)中发现的一个已经存在
长达 15 年的程式错误,这个程式错误缩小了搜索的体素数目(低估了多重比较的数目)
,并因此高估了统计的显着性。
--
3. 脑造影与神经科学崩盘?
--
好了,以上就是 PNAS 原文的基本发现。我个人觉得,这篇文章算是很不错的资料模拟分
析研究。但是,受影响的研究论文数量真的有 40000 篇吗?
原文的第二作者尼可斯(Thomas Nichols)很快就在部落格上澄清(3),并把受影响的
论文数量下修到 3500 篇,原因就在於,很多研究根本就不是采用上述的「聚落分析」方
式来校正。
此外,就算是采用聚落分析,许多研究也不是使用软体的预设值(例如很多研究使用的第
一门槛值可能远比 p<0.01 更严苛)。而且,这 3500 篇研究测量到的效应值如果很大,
它是假阳性的机率就会降低。
至於有人担心整个脑造影领域或神经科学会跟着崩盘。我想这是几乎不可能。原因如下:
A. 即使 fMRI 真的有过高的假阳性结果,我们依然可以透过综合性的分析来预估某项发
现真正的假阳性机率,例如,研究A发现X脑区可能与语言有关,而其假阳性机率是70%
,此时若研究B也发现X脑区可能与语言有关,而其假阳性机率也是70%,那麽当我们同
时看待两项研究时,这两项研究同时为假阳性的机率就只剩下49%,如果有更多的研究也
发现同样的结果,该发现的假阳性机率就会不断下降。
B. 有些脑造影研究是属於探索型的,例如想要找出某种前人没有研究过的认知功能的对
应脑区。这样的研究可能会想要采取较宽松的门槛值,以允许科学家在结果中公开较多的
脑区让後来的研究者参考。
C. 就算所有的 fMRI 研究果真的全部有误,我们还有其他的测量方法来进行验证。脑造
影研究毕竟不是只有 fMRI,还有如 PET 和 MEG 等其他各种测量技术,而神经科学也不
是只依赖脑造影,还有行为科学、电生理与细胞生物学等都可以提供左证。因此,脑造影
领域或神经科学几乎不可能会因此而崩盘。
总而言之,一项科学发现如果要能站稳,都得要经过好几次的实验重现,以及不同测量方
法与实验典范的验证才行。
--
4. 结语:科学数据公开共享与质疑基本假设
--
PNAS 这篇文章真正值得大家深思和警惕的地方,并不是 15 年来的脑造影发现是否全是
垃圾(当然不是),也不是科学家在进行资料分析是否都不够谨小慎微(其实大部分都很
细心)。
我们真正要思索与鼓励的应该是(1)科学数据公开共享,以及(2)对各种基本假设始终
保持存疑。
过去 20 年来,其实一直都有脑造影科学家在呼吁大家要重视其中的假阳性问题,而大部
份的神经造影学者也都非常小心。但是囿於没有大量的真实数据可以提供适当的参数,科
学家也只得无奈的采用理论上的预设参数进行资料分析。
所幸,近年来神经科学家开始自发推动脑造影资料共享计画,相关的计量与统计科学家才
终於可以透过公开资料库,获得足够的脑造影资料,以检视大家先在分析时所采用的假设
。之前可能存在的假设错误,也才终於有机会获得修正。
科学演进的特色之一,就是证据不断的累积、以及透过发现错误来不断修正假设。从这个
角度看,PNAS 这篇研究其实一点都不负面,而可以看成是科学社群自我反省检验後向前
迈进的一个正面案例。
--
ps. PNAS 这篇原文中的最大错误,应该就是在前言的「重要性摘要」中,炮轰过去 15
年的 40000 篇论文都可能作废的那句话。但是也因为此言,才招来了噬血媒体的引用并
引发广泛的注视与讨论。
这句话,究竟是原文中粗心大意的「败笔」?还是精心策划的「胜笔」呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 134.58.253.57
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Cognitive/M.1468591438.A.48A.html