Re: [請益] 班佛定律至少要有3000樣本數是怎麼算的？

時間Wed Nov 10 00:07:36 2021

※ 引述《souldragon (依法不依人)》之銘言： : 班佛定律老實說很冷門我看了1,20本經濟或統計的書也沒啥人引用過 : 有人說可以用來檢驗選舉或帳目有無人為篡改條件是隨機資料要有3000筆以上 : 隨機資料和隨機抽樣意思差不多就是不能有外部人為干預下自然產生的結果 : 比如統計樣本至少要有1068才能反應母體那3000這數字是怎麼得出來的？ : 若有這限制也無法用來檢驗選舉作票因為每投票所的人口不到3000 : 通常都在2000以下投票率七成則在1500以下數據永遠不到3000筆 : 至少每個投票所母數要有5000 投票率六成以上才能符合門檻值 : 樣本數量根本未達標還有人用這理論在檢驗不是很奇怪?? 這定律原意是當有很多筆數據時，1開頭的數據會佔個三成左右，2345依次遞減那，一坨數據裡面要有接近什麼%數的1開頭這種事，需要的是這坨數據夠大坨而不是這坨數據裡面每個資料值都超過3000 舉帳目造假的例子來說是賣場要有3000筆以上的銷售資料才能用它來驗算而不是3000元以上的帳單才能應用這個定律 ~~ 但這個定律除了數據要夠大坨之外，數據的跨度也要夠大才適用一樣用帳目造假為例如果大賣場的結帳金額跨度從幾十塊到上萬塊（兩個零到四個零），那麼一百多/一千多/一萬多佔比高是符合定律描述的但一個平價便當店，跨度才從五十塊到幾百塊（一個零到兩個零）那麼5678開頭的結帳單比1開頭的多也不是什麼奇怪事另一種情形是數據的產出本身就有刻意控制範圍假設一開始為了平均投票所負擔而故意讓各票所間的選民數在一定範圍內那麼看首數很顯然的也沒有太大意義 ~~ 回到選舉造假的問題，從維基百科附的新聞連結來看，當初抓舞弊的不是首數而是末兩位數（雖然我不確定看尾數還算不算班佛定律，人家是看首數，不過不管啦...）此時理論上就是全隨機了幾千幾百幾十「七」和幾萬幾千幾百幾十「三」的機率應該都是10% 幾千幾百「八十九」和幾萬幾千幾百「六十四」的機率也應該都是1% 但，人類在亂掰數字時很常不小心有偏好在伊朗的某場選舉之中，一百多個數據裡7結尾的票所有17%，5結尾的只有4% （相較之下美國每次投票看尾數，都不會有14%以上或6%以下的特定尾數）統計上出現這麼大偏差的機率只有4% 另一個檢查方式是看末兩位是否相鄰（37/29算不相鄰，21/22/23算有相鄰）人類亂掰兩位數也很容易有偏好，理論值是七成不相鄰但上面那場伊朗選舉只有62%，看起來大概也是掰出來的可能性比較大綜上兩點，任何一場正常選舉產出上面那個結果的可能性只有 1/200 加上當選人在反對派強勢地區的票數也高的不合理大概就是有造假無誤了 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.190.152 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/ask-why/M.1636474062.A.5FC.html

1^F：→ su31tak: 啊，回到標題，3000這個數在wiki上面被打citation needed 11/10 00:08

2^F：→ su31tak: 也沒查到三千哪來的就是了 11/10 00:08

3^F：→ xiaoa: 你們是在雞同鴨講嗎？我看他都誤解自己的問題了，你還指點 11/12 20:06

4^F：→ xiaoa: 得津津有味 11/12 20:06

5^F：→ souldragon: 樓上誤解的是你吧亂入王 11/12 22:46

6^F：→ souldragon: 這理論完全沒解釋 "樣本數下限" 和 "數據範圍得多大" 11/12 22:55

7^F：→ souldragon: 3000這數字你知道怎麼來的？說得自己好像很懂秀一下 11/12 22:56

8^F：→ xiaoa: 概率性的統計，通常會希望positive result和negative resul 11/13 14:35

9^F：→ xiaoa: t都發生最少7~8次，統計的信賴區間才會夠小。但是夠小本身 11/13 14:35

10^F：→ xiaoa: 就是個模糊概念，有些人做出只有4~5次，他也照樣可以發pape 11/13 14:35

11^F：→ xiaoa: r。只不過信賴區間比較大、統計的準確性比較低，paper的威 11/13 14:35

12^F：→ xiaoa: 信度也就比較低。舉例來說，投硬幣就要頭花各出現7~8次， 11/13 14:35

13^F：→ xiaoa: 那麼大約就需要投20次，或最少需要投15次。要降低次數，擴 11/13 14:35

14^F：→ xiaoa: 大信賴區間、降低數據的可靠性，只丟10次也可以。如果是萬 11/13 14:35

15^F：→ xiaoa: 分之一發生的概率，那就需要做7~8萬次左右的抽樣。班佛定 11/13 14:35

16^F：→ xiaoa: 律比較複雜，它不是二元的概率分布，但將之簡化成1和非1， 11/13 14:35

17^F：→ xiaoa: 也是可以。那麼概率就是大約3成。大概數據只要25~30筆就差 11/13 14:35

18^F：→ xiaoa: 不多了。我昨天隨便Google了一下，也就說需要50筆左右。也 11/13 14:35

19^F：→ xiaoa: 就兩倍於我的推論。後來我想了想如果把2、3也考慮進去，要 11/13 14:35

20^F：→ xiaoa: 求抽樣50確實就合理(抽樣出123的概率，才能看出班佛定律的 11/13 14:36

21^F：→ xiaoa: 趨勢嘛)。至於跨度，配合pansci那篇文章裡有一張取了log後 11/13 14:36

22^F：→ xiaoa: ，粉紅色區間寬度都變得一樣的圖，會比較好理解。它就表現 11/13 14:36

23^F：→ xiaoa: 出1和非1的數據分佈跨度，而且是標準化的(每個顏色間隔都固 11/13 14:36

24^F：→ xiaoa: 定)。我現在想不到對應的數學理論或模型。但是同樣用概率 11/13 14:36

25^F：→ xiaoa: 來說，我們從前面0開始，走到數據的後段x，會經歷過多少次< 11/13 14:36

26^F：→ xiaoa: 1>的區間。假設同樣要求經過<1>的次數也是7~8次。那麼就是 11/13 14:36

27^F：→ xiaoa: 從0到8。那就是10^0到10^8這樣的跨度。好像有點大，可能10^ 11/13 14:36

28^F：→ xiaoa: 0到10^5就差不多了。總之，我只是用最簡單的概率模型2項分 11/13 14:36

29^F：→ xiaoa: 佈硬套在班佛定律身上推算的，肯定不準確，但是其中的數學 11/13 14:36

30^F：→ xiaoa: 邏輯是比較接近的，所以推算的結果不會差得太遠。如果你深 11/13 14:36

31^F：→ xiaoa: 入研究有關班佛定律的數學模型，肯定可以算出指定的信賴區 11/13 14:36

32^F：→ xiaoa: 間、統計檢定範圍內，需要的樣本數和數據跨度是多少。 11/13 14:36

33^F：→ xiaoa: 簡單了說吧，最最最簡陋的統計要求要3筆數據，才能定算出 11/13 14:52

34^F：→ xiaoa: 有意義的平均值。為什麼要3筆，背後的邏輯就是要算出平均 11/13 14:53

35^F：→ xiaoa: 值。那麼，要做出統計檢定p數值接近0.05需要多少樣本？p=0. 11/13 14:53

36^F：→ xiaoa: 005又是多少樣本。這需要把統計模型丟進另一個統計模型去 11/13 14:53

37^F：→ xiaoa: 推算。而這，已經有人做過了。所以他會告訴你，大約多少個 11/13 14:53

38^F：→ xiaoa: 樣本數，你大概率(95%? 99.5%? 99.95%?)可以得到p<=0.05或0 11/13 14:53

39^F：→ xiaoa: .005或0.0005。這就是其背後的邏輯。樣本跨度也可以有自己 11/13 14:53

40^F：→ xiaoa: 的模型，同樣是大概率(95%? 99.5%?)，讓數據體現出其自然 11/13 14:53

41^F：→ xiaoa: 的樣貌。 11/13 14:53

42^F：→ xiaoa: 還有你的臭嘴，最好給我道歉 11/13 14:53

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

ask-why 板

Re: [請益] 班佛定律至少要有3000樣本數是怎麼算的？

熱門看板

贊助商連結