作者AgileSeptor (S.Duncan_JB)
看板book
标题[心得] 《数据的假象》拿数据来一脸正经鬼扯
时间Sat Nov 12 18:49:10 2022
我们身处一个非使用数据不可的资讯时代
太多书在介绍数据分析与资料科学有多厉害又多重要
《数据的假象》反而是一本带领我们遍览数据鬼扯的书、充满「乱用数据」的案例分享
我将在这则笔记写下到底这世上为什麽数据鬼扯如此泛滥
认识数据鬼扯的成因、我们才更知道该如何避免自己也成为拿数据鬼扯的人
部落格好读版:
https://haosquare.com/calling-bullshit/
---
## 不易被打败的数据鬼扯
如果用华丽词藻堆砌出的是我们印象中的典型鬼扯,那麽透过数字、图表、或者统计学包
装出的假资讯,可以说是现代的新型鬼扯。骇人的是,新型鬼扯加上数据後,莫名变得貌
似很有说服力,让一般人反而变得不敢轻易质疑。
来试试看,看到以下这句话,你的想法是什麽呢?
> 「爱猫人士比爱狗人士更有赚钱头脑!」
如果你是热爱狗的狗派,肯定会跳出来、马上生出各种理由反击,像是:爱狗的人都比较
热情,热情与善於交流都是投资与创业的重要特质,赚钱脑袋怎麽可能输给猫派!
但要是,刚刚那句话变成:
> 「利用台北市政府公开资料,我们控制重要人口变因後、依照职业别进行显着水准 5%
的假设检定,60 种职业类别的其中 21 种,有饲养猫的平均年薪显着高於有饲养狗人士的
平均年薪。」
这段话光是能耐心看完就已经是奇蹟了,哪有力气反驳它的论点?更别说要探究它的统计
分析方法到底有没有道理。人们通常只会浓缩成一句过度简化的结论:从它说的数据看起
来,爱猫的人好像真的比较会赚钱。(本例纯属虚构)
---
验证数据的真实性并不容易,因此数据鬼扯不易被打败。《数据的假象》在书中整理出了
以下的定律:
> 反驳鬼扯所需的力气,是制造鬼扯所需力气的十倍
> 布兰多里尼定律 - 义大利软体工程师 Alberto Brandolini
我认为因果关系就是一个容易被鬼扯、又很难推翻的典型例子。如果你在新闻标题上看到
「研究显示,罹患自闭症与注射麻疹疫苗有关」,你心中会不会偷偷下个结论:「我不敢
再打麻疹疫苗了!」?但是,这则标题并没有写出具体而言相关性是透过什麽数据计算出
来的、不知道相关性有多强,此外,标题也只写了相关性、它并不代表疫苗造成自闭症的
因果关系!
延伸阅读:科学家如何分析因果关系?
https://haosquare.com/causal-inference-intro/
写出容易令人误会的新闻标题很简单,而光是要想该怀疑什麽数据就已经很费力了,更别
说要劳心劳力动手验证数据的真伪。更恐怖的是,随口说出一句跟数据有关的鬼扯根本不
需要什麽脑袋,但要反驳这句鬼扯,却需要很多聪明人用科学方法才能达成!
> 一个蠢蛋能扯出的鬼话,超过你希望能够驳斥的量
> 法内利定律 - 义大利部落客 Ureil Fanelli
---
## 鬼扯传得比真相快多了
数据鬼扯很好产生、又难以被打败,它还很容易传播!
> 假话秒传千里,真相姗姗来迟
> 讽刺文学作家 Jonathan Swift
数据的鬼扯与假消息,可以飞快地渗透普及到全世界。在 Facebook、Dcard、Instagram
这些社群媒体平台蓬勃发展的时代,全球各个角落发生的每则奇闻轶事,都会毫无延迟地
呈现在你眼前,也正是因为取得与散播资讯太过容易,一天有几千则消息映入眼帘,我们
怎麽可能费力气去怀疑、怎麽可能花时间想哪则消息是真、哪则消息是假呢?
《数据的假象》用「殭屍统计数据」来描述上述这种现象:没人知道数据从何而来。被引
用的资讯或统计数据,有可能从一开始就是捏造、不实的,但因为没有人去追究真伪、只
是跟风不断引用,所以这些数据会一直存活在我们眼前不会消失!引用了数据却不追究来
源与真实性,这项资讯是死是活搞不清楚、根本就像是殭屍一样!
就算人们不是恶意地,社群媒体的确助长假资讯与数据鬼扯的快速传播。想像一下,你是
社群的小编或是新闻记者的话,要是要求你每则消息都要求证 100% 正确无误才能转贴分
享,那你分享消息的速度可能永远都要比其他人晚三、四个月罗。为了跟上社群媒体飞快
变化的脚步,我们都可能会(无意间)成为殭屍统计数据的传播者。
Facebook 也确实从他们的贴文资料库检视过鬼扯快速传播的现象:不实资讯比证实过正确
的资讯传播得更久。网路上的鬼扯即使被有公信力的单位戳破为不实资讯,依然会继续被
转发分享,被戳破的不实资讯只是比较可能被删除而已,但被删除的速度仍跟不上被分享
的速度,鬼扯还是在扩大传播。
> 当谎言都蹦蹦跳跳绕世界大半圈了,真理还来不及穿好裤子哩
> 美国罗斯福总统任内的国务卿 Cordell Hull
## 为达到目的而鬼扯
> 当测量成为目标,它就不再是个好的测量标准
> 古德哈特定律 - 人类学家 Marilyn Strathern (转述)
只要人们看到有机会获得奖赏的机会,就会开始操弄游戏规则,原本为了评估而设计的数
据测量,反而失去衡量成效的原始目的。
我读到这段,马上就想到经济学课本一定会提到的 代理人问题(Agency Problem)。有些
企业会把股价当作衡量执行长(CEO)经营表现的指标,并直接根据股价来支付 CEO 的薪
资。企业希望 CEO 帮助公司恒久成长,但是,CEO 的表现是被股价衡量的,而 CEO 想提
升股价,并不只有对公司有益的手段而已,CEO 可以选择到处夸大公司表现、吸引大众投
资来炒高股价;也可以选择删减公司长期投资计画、把钱都投资在眼前的短期生意,让
CEO 在位期间经营表现都超好、股价节节上升,但实际上对公司长期经营则是种伤害。企
业经营的代理人问题,就是古德哈特定律的典型范例。
除了代理人问题,假论文的市场也反映了为达到衡量目的而鬼扯的现象、是我在《数据的
假象》学到最有趣的数据鬼扯之一。对许多科学家而言,比起金钱,自己在科学界的声望
是他们更渴望的报酬,出版论文就是累积声望的主要方式,要在举足轻重的期刊发表论文
需要经过严格的同侪审查机制,如果你的论文能通过知名学者的审阅、自然也会受到全世
界其他学者的认可。然而,科学家会用论文发表的数量来评断彼此的能力,这反而造就了
假论文市场的产生,有一种论文出版商会采用极度松散的同侪审查机制,即使水准不高的
学者,也能通过形同虚设的审阅、在这个出版商发表论文。最後,论文发表的数量变成一
个可以透过不可靠论文来滥竽充数的数字,不只成为一个对科学家能力无效的衡量,还助
长了低品质论文在科学界流窜!
## 结语:对抗数据鬼扯!
《数据的假象》这本书介绍了数据鬼扯满天飞的成因:
* 制造鬼扯所需的力气与智力比清除还少
* 鬼扯传播的速度比清除的速度快
* 用数据来衡量目标,人们会为达到利益而用数据鬼扯
我们有必要认识这些数据鬼扯的形成,就是因为它是对抗数据鬼扯的第一步!
> 在任何时候,你得应付的主要鬼扯消息来源就是你自己
> 美国作家与教育家 Neil Postman
这世界充斥着数据的鬼扯,而且没有教育制度、法律、或者酷炫的科技(例如貌似万能的
人工智慧?)可以立即解决数据鬼扯流窜的问题,我们只能从自己做起。我们不需要是统
计学专家,只要用一点逻辑思考就能做到,即使侦测还有清除数据鬼扯十分费力,只要我
们分享任何资讯之前,多一分思考、多一点谨慎,就是对更健全的人类资讯体系莫大的贡
献!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.225.4.172 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/book/M.1668250152.A.7C6.html
1F:推 skyhawkptt: 感谢介绍及推荐 11/16 00:10
2F:推 AS2000: 深有同感啊!很多事情都很难确定是真假了,感谢分享~ 11/18 01:37
3F:推 alice78226: 好棒的分享。另外,数据鬼扯很容易发生在死背书跟名词 11/21 11:25
4F:→ alice78226: 的人身上,觉得PTT的热门板这种风气尤盛。 11/21 11:25