作者su31tak (su31tak)
看板ask-why
標題Re: [請益] 班佛定律至少要有3000樣本數是怎麼算的?
時間Wed Nov 10 00:07:36 2021
※ 引述《souldragon (依法不依人)》之銘言:
: 班佛定律老實說很冷門 我看了1,20本經濟或統計的書也沒啥人引用過
: 有人說可以用來檢驗選舉或帳目有無人為篡改 條件是隨機資料要有3000筆以上
: 隨機資料和隨機抽樣意思差不多 就是不能有外部人為干預下自然產生的結果
: 比如統計樣本至少要有1068才能反應母體 那3000這數字是怎麼得出來的?
: 若有這限制 也無法用來檢驗選舉作票 因為每投票所的人口不到3000
: 通常都在2000以下 投票率七成則在1500以下 數據永遠不到3000筆
: 至少每個投票所母數要有5000 投票率六成以上才能符合門檻值
: 樣本數量根本未達標 還有人用這理論在檢驗 不是很奇怪??
這定律原意是
當有很多筆數據時,1開頭的數據會佔個三成左右,2345依次遞減
那,一坨數據裡面要有接近什麼%數的1開頭這種事,需要的是這坨數據夠大坨
而不是這坨數據裡面每個資料值都超過3000
舉帳目造假的例子來說
是賣場要有3000筆以上的銷售資料才能用它來驗算
而不是3000元以上的帳單才能應用這個定律
~~
但這個定律除了數據要夠大坨之外,數據的跨度也要夠大才適用
一樣用帳目造假為例
如果大賣場的結帳金額跨度從幾十塊到上萬塊(兩個零到四個零),
那麼一百多/一千多/一萬多佔比高是符合定律描述的
但一個平價便當店,跨度才從五十塊到幾百塊(一個零到兩個零)
那麼5678開頭的結帳單比1開頭的多也不是什麼奇怪事
另一種情形是數據的產出本身就有刻意控制範圍
假設一開始為了平均投票所負擔而故意讓各票所間的選民數在一定範圍內
那麼看首數很顯然的也沒有太大意義
~~
回到選舉造假的問題,
從維基百科附的新聞連結來看,當初抓舞弊的不是首數而是末兩位數
(雖然我不確定看尾數還算不算班佛定律,人家是看首數,不過不管啦...)
此時理論上就是全隨機了
幾千幾百幾十「七」和幾萬幾千幾百幾十「三」的機率應該都是10%
幾千幾百「八十九」和幾萬幾千幾百「六十四」的機率也應該都是1%
但,人類在亂掰數字時很常不小心有偏好
在伊朗的某場選舉之中,一百多個數據裡7結尾的票所有17%,5結尾的只有4%
(相較之下美國每次投票看尾數,都不會有14%以上或6%以下的特定尾數)
統計上出現這麼大偏差的機率只有4%
另一個檢查方式是看末兩位是否相鄰(37/29算不相鄰,21/22/23算有相鄰)
人類亂掰兩位數也很容易有偏好,理論值是七成不相鄰
但上面那場伊朗選舉只有62%,看起來大概也是掰出來的可能性比較大
綜上兩點,任何一場正常選舉產出上面那個結果的可能性只有 1/200
加上當選人在反對派強勢地區的票數也高的不合理
大概就是有造假無誤了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.136.190.152 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/ask-why/M.1636474062.A.5FC.html
1F:→ su31tak: 啊,回到標題,3000這個數在wiki上面被打citation needed 11/10 00:08
2F:→ su31tak: 也沒查到三千哪來的就是了 11/10 00:08
3F:→ xiaoa: 你們是在雞同鴨講嗎?我看他都誤解自己的問題了,你還指點 11/12 20:06
4F:→ xiaoa: 得津津有味 11/12 20:06
5F:→ souldragon: 樓上 誤解的是你吧 亂入王 11/12 22:46
6F:→ souldragon: 這理論完全沒解釋 "樣本數下限" 和 "數據範圍得多大" 11/12 22:55
7F:→ souldragon: 3000這數字你知道怎麼來的?說得自己好像很懂 秀一下 11/12 22:56
8F:→ xiaoa: 概率性的統計,通常會希望positive result和negative resul 11/13 14:35
9F:→ xiaoa: t都發生最少7~8次,統計的信賴區間才會夠小。但是夠小本身 11/13 14:35
10F:→ xiaoa: 就是個模糊概念,有些人做出只有4~5次,他也照樣可以發pape 11/13 14:35
11F:→ xiaoa: r。只不過信賴區間比較大、統計的準確性比較低,paper的威 11/13 14:35
12F:→ xiaoa: 信度也就比較低。舉例來說,投硬幣就要頭花各出現7~8次, 11/13 14:35
13F:→ xiaoa: 那麼大約就需要投20次,或最少需要投15次。要降低次數,擴 11/13 14:35
14F:→ xiaoa: 大信賴區間、降低數據的可靠性,只丟10次也可以。如果是萬 11/13 14:35
15F:→ xiaoa: 分之一發生的概率,那就需要做7~8萬次左右的抽樣。班佛定 11/13 14:35
16F:→ xiaoa: 律比較複雜,它不是二元的概率分布,但將之簡化成1和非1, 11/13 14:35
17F:→ xiaoa: 也是可以。那麼概率就是大約3成。大概數據只要25~30筆就差 11/13 14:35
18F:→ xiaoa: 不多了。我昨天隨便Google了一下,也就說需要50筆左右。也 11/13 14:35
19F:→ xiaoa: 就兩倍於我的推論。後來我想了想如果把2、3也考慮進去,要 11/13 14:35
20F:→ xiaoa: 求抽樣50確實就合理(抽樣出123的概率,才能看出班佛定律的 11/13 14:36
21F:→ xiaoa: 趨勢嘛)。至於跨度,配合pansci那篇文章裡有一張取了log後 11/13 14:36
22F:→ xiaoa: ,粉紅色區間寬度都變得一樣的圖,會比較好理解。它就表現 11/13 14:36
23F:→ xiaoa: 出1和非1的數據分佈跨度,而且是標準化的(每個顏色間隔都固 11/13 14:36
24F:→ xiaoa: 定)。我現在想不到對應的數學理論或模型。但是同樣用概率 11/13 14:36
25F:→ xiaoa: 來說,我們從前面0開始,走到數據的後段x,會經歷過多少次< 11/13 14:36
26F:→ xiaoa: 1>的區間。假設同樣要求經過<1>的次數也是7~8次。那麼就是 11/13 14:36
27F:→ xiaoa: 從0到8。那就是10^0到10^8這樣的跨度。好像有點大,可能10^ 11/13 14:36
28F:→ xiaoa: 0到10^5就差不多了。總之,我只是用最簡單的概率模型2項分 11/13 14:36
29F:→ xiaoa: 佈硬套在班佛定律身上推算的,肯定不準確,但是其中的數學 11/13 14:36
30F:→ xiaoa: 邏輯是比較接近的,所以推算的結果不會差得太遠。如果你深 11/13 14:36
31F:→ xiaoa: 入研究有關班佛定律的數學模型,肯定可以算出指定的信賴區 11/13 14:36
32F:→ xiaoa: 間、統計檢定範圍內,需要的樣本數和數據跨度是多少。 11/13 14:36
33F:→ xiaoa: 簡單了說吧,最最最簡陋的統計要求要3筆數據,才能定算出 11/13 14:52
34F:→ xiaoa: 有意義的平均值。為什麼要3筆,背後的邏輯就是要算出平均 11/13 14:53
35F:→ xiaoa: 值。那麼,要做出統計檢定p數值接近0.05需要多少樣本?p=0. 11/13 14:53
36F:→ xiaoa: 005又是多少樣本。這需要把統計模型丟進另一個統計模型去 11/13 14:53
37F:→ xiaoa: 推算。而這,已經有人做過了。所以他會告訴你,大約多少個 11/13 14:53
38F:→ xiaoa: 樣本數,你大概率(95%? 99.5%? 99.95%?)可以得到p<=0.05或0 11/13 14:53
39F:→ xiaoa: .005或0.0005。這就是其背後的邏輯。樣本跨度也可以有自己 11/13 14:53
40F:→ xiaoa: 的模型,同樣是大概率(95%? 99.5%?),讓數據體現出其自然 11/13 14:53
41F:→ xiaoa: 的樣貌。 11/13 14:53
42F:→ xiaoa: 還有你的臭嘴,最好給我道歉 11/13 14:53