book 板


LINE

我們身處一個非使用數據不可的資訊時代 太多書在介紹數據分析與資料科學有多厲害又多重要 《數據的假象》反而是一本帶領我們遍覽數據鬼扯的書、充滿「亂用數據」的案例分享 我將在這則筆記寫下到底這世上為什麼數據鬼扯如此氾濫 認識數據鬼扯的成因、我們才更知道該如何避免自己也成為拿數據鬼扯的人 部落格好讀版: https://haosquare.com/calling-bullshit/ --- ## 不易被打敗的數據鬼扯 如果用華麗詞藻堆砌出的是我們印象中的典型鬼扯,那麼透過數字、圖表、或者統計學包 裝出的假資訊,可以說是現代的新型鬼扯。駭人的是,新型鬼扯加上數據後,莫名變得貌 似很有說服力,讓一般人反而變得不敢輕易質疑。 來試試看,看到以下這句話,你的想法是什麼呢? > 「愛貓人士比愛狗人士更有賺錢頭腦!」 如果你是熱愛狗的狗派,肯定會跳出來、馬上生出各種理由反擊,像是:愛狗的人都比較 熱情,熱情與善於交流都是投資與創業的重要特質,賺錢腦袋怎麼可能輸給貓派! 但要是,剛剛那句話變成: > 「利用台北市政府公開資料,我們控制重要人口變因後、依照職業別進行顯著水準 5% 的假設檢定,60 種職業類別的其中 21 種,有飼養貓的平均年薪顯著高於有飼養狗人士的 平均年薪。」 這段話光是能耐心看完就已經是奇蹟了,哪有力氣反駁它的論點?更別說要探究它的統計 分析方法到底有沒有道理。人們通常只會濃縮成一句過度簡化的結論:從它說的數據看起 來,愛貓的人好像真的比較會賺錢。(本例純屬虛構) --- 驗證數據的真實性並不容易,因此數據鬼扯不易被打敗。《數據的假象》在書中整理出了 以下的定律: > 反駁鬼扯所需的力氣,是製造鬼扯所需力氣的十倍 > 布蘭多里尼定律 - 義大利軟體工程師 Alberto Brandolini 我認為因果關係就是一個容易被鬼扯、又很難推翻的典型例子。如果你在新聞標題上看到 「研究顯示,罹患自閉症與注射麻疹疫苗有關」,你心中會不會偷偷下個結論:「我不敢 再打麻疹疫苗了!」?但是,這則標題並沒有寫出具體而言相關性是透過什麼數據計算出 來的、不知道相關性有多強,此外,標題也只寫了相關性、它並不代表疫苗造成自閉症的 因果關係! 延伸閱讀:科學家如何分析因果關係? https://haosquare.com/causal-inference-intro/ 寫出容易令人誤會的新聞標題很簡單,而光是要想該懷疑什麼數據就已經很費力了,更別 說要勞心勞力動手驗證數據的真偽。更恐怖的是,隨口說出一句跟數據有關的鬼扯根本不 需要什麼腦袋,但要反駁這句鬼扯,卻需要很多聰明人用科學方法才能達成! > 一個蠢蛋能扯出的鬼話,超過你希望能夠駁斥的量 > 法內利定律 - 義大利部落客 Ureil Fanelli --- ## 鬼扯傳得比真相快多了 數據鬼扯很好產生、又難以被打敗,它還很容易傳播! > 假話秒傳千里,真相姍姍來遲 > 諷刺文學作家 Jonathan Swift 數據的鬼扯與假消息,可以飛快地滲透普及到全世界。在 Facebook、Dcard、Instagram 這些社群媒體平台蓬勃發展的時代,全球各個角落發生的每則奇聞軼事,都會毫無延遲地 呈現在你眼前,也正是因為取得與散播資訊太過容易,一天有幾千則消息映入眼簾,我們 怎麼可能費力氣去懷疑、怎麼可能花時間想哪則消息是真、哪則消息是假呢? 《數據的假象》用「殭屍統計數據」來描述上述這種現象:沒人知道數據從何而來。被引 用的資訊或統計數據,有可能從一開始就是捏造、不實的,但因為沒有人去追究真偽、只 是跟風不斷引用,所以這些數據會一直存活在我們眼前不會消失!引用了數據卻不追究來 源與真實性,這項資訊是死是活搞不清楚、根本就像是殭屍一樣! 就算人們不是惡意地,社群媒體的確助長假資訊與數據鬼扯的快速傳播。想像一下,你是 社群的小編或是新聞記者的話,要是要求你每則消息都要求證 100% 正確無誤才能轉貼分 享,那你分享消息的速度可能永遠都要比其他人晚三、四個月囉。為了跟上社群媒體飛快 變化的腳步,我們都可能會(無意間)成為殭屍統計數據的傳播者。 Facebook 也確實從他們的貼文資料庫檢視過鬼扯快速傳播的現象:不實資訊比證實過正確 的資訊傳播得更久。網路上的鬼扯即使被有公信力的單位戳破為不實資訊,依然會繼續被 轉發分享,被戳破的不實資訊只是比較可能被刪除而已,但被刪除的速度仍跟不上被分享 的速度,鬼扯還是在擴大傳播。 > 當謊言都蹦蹦跳跳繞世界大半圈了,真理還來不及穿好褲子哩 > 美國羅斯福總統任內的國務卿 Cordell Hull ## 為達到目的而鬼扯 > 當測量成為目標,它就不再是個好的測量標準 > 古德哈特定律 - 人類學家 Marilyn Strathern (轉述) 只要人們看到有機會獲得獎賞的機會,就會開始操弄遊戲規則,原本為了評估而設計的數 據測量,反而失去衡量成效的原始目的。 我讀到這段,馬上就想到經濟學課本一定會提到的 代理人問題(Agency Problem)。有些 企業會把股價當作衡量執行長(CEO)經營表現的指標,並直接根據股價來支付 CEO 的薪 資。企業希望 CEO 幫助公司恆久成長,但是,CEO 的表現是被股價衡量的,而 CEO 想提 升股價,並不只有對公司有益的手段而已,CEO 可以選擇到處誇大公司表現、吸引大眾投 資來炒高股價;也可以選擇刪減公司長期投資計畫、把錢都投資在眼前的短期生意,讓 CEO 在位期間經營表現都超好、股價節節上升,但實際上對公司長期經營則是種傷害。企 業經營的代理人問題,就是古德哈特定律的典型範例。 除了代理人問題,假論文的市場也反映了為達到衡量目的而鬼扯的現象、是我在《數據的 假象》學到最有趣的數據鬼扯之一。對許多科學家而言,比起金錢,自己在科學界的聲望 是他們更渴望的報酬,出版論文就是累積聲望的主要方式,要在舉足輕重的期刊發表論文 需要經過嚴格的同儕審查機制,如果你的論文能通過知名學者的審閱、自然也會受到全世 界其他學者的認可。然而,科學家會用論文發表的數量來評斷彼此的能力,這反而造就了 假論文市場的產生,有一種論文出版商會採用極度鬆散的同儕審查機制,即使水準不高的 學者,也能通過形同虛設的審閱、在這個出版商發表論文。最後,論文發表的數量變成一 個可以透過不可靠論文來濫竽充數的數字,不只成為一個對科學家能力無效的衡量,還助 長了低品質論文在科學界流竄! ## 結語:對抗數據鬼扯! 《數據的假象》這本書介紹了數據鬼扯滿天飛的成因: * 製造鬼扯所需的力氣與智力比清除還少 * 鬼扯傳播的速度比清除的速度快 * 用數據來衡量目標,人們會為達到利益而用數據鬼扯 我們有必要認識這些數據鬼扯的形成,就是因為它是對抗數據鬼扯的第一步! > 在任何時候,你得應付的主要鬼扯消息來源就是你自己 > 美國作家與教育家 Neil Postman 這世界充斥著數據的鬼扯,而且沒有教育制度、法律、或者酷炫的科技(例如貌似萬能的 人工智慧?)可以立即解決數據鬼扯流竄的問題,我們只能從自己做起。我們不需要是統 計學專家,只要用一點邏輯思考就能做到,即使偵測還有清除數據鬼扯十分費力,只要我 們分享任何資訊之前,多一分思考、多一點謹慎,就是對更健全的人類資訊體系莫大的貢 獻! --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.4.172 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/book/M.1668250152.A.7C6.html
1F:推 skyhawkptt: 感謝介紹及推薦 11/16 00:10
2F:推 AS2000: 深有同感啊!很多事情都很難確定是真假了,感謝分享~ 11/18 01:37
3F:推 alice78226: 好棒的分享。另外,數據鬼扯很容易發生在死背書跟名詞 11/21 11:25
4F:→ alice78226: 的人身上,覺得PTT的熱門板這種風氣尤盛。 11/21 11:25







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BuyTogether站內搜尋

TOP