作者su31tak (su31tak)
看板ask-why
标题Re: [请益] 班佛定律至少要有3000样本数是怎麽算的?
时间Thu Nov 11 01:53:42 2021
※ 引述《souldragon (依法不依人)》之铭言:
: ※ 引述《su31tak (su31tak)》之铭言:
: : 这定律原意是
: : 当有很多笔数据时,1开头的数据会占个三成左右,2345依次递减
: : 那,一坨数据里面要有接近什麽%数的1开头这种事,需要的是这坨数据够大坨
: : 而不是这坨数据里面每个资料值都超过3000
: : 举帐目造假的例子来说
: : 是卖场要有3000笔以上的销售资料才能用它来验算
: : 而不是3000元以上的帐单才能应用这个定律
: 应该不是这样喔 这定律是检验所有数字的头1~9
: 1的比例约占30% 一直递减到9 原因是十进位都是从1开始累进
: 所以所谓的随机数据一定要3000以上 若随机数据只有1~9 则结果是各占1/9
都说要看首数了,把一千多和两千多直接砍掉你不觉得哪里怪怪的吗
: 0~100 1开头的比例也不会有30% 一定要数据范围够大才会如此 3000应该是这样来的
: (不然考试成绩可以用班佛定律?? 最多人考10几分 90几分的人最少?? )
: 若帐单数字每笔都很小 例如文具店帐单 单笔几乎都在500以内 就不能用班佛定律
数字大小不是重点,如果帐单改美金计价,但跨度一样大,那还是能看首数
: 投票所人口也是如此 每个票所母数至少要5000 平均投票率六成以上才符合条件
你还是没搞懂。
你讲的就是我下面那段,数据跨度要够大
卖场发票从几十块到几万块跨了三个数量级
考试成绩平均范围和标准差就都在几十分,没有跨数量级的问题
另外,标准分布钟型曲线也是本来就不能看班佛
引用不太能当reference (甚至还自己打citation needed的维基原文)
「数据至少3000笔以上」
: : 但这个定律除了数据要够大坨之外,数据的跨度也要够大才适用
: : 一样用帐目造假为例
: : 如果大卖场的结帐金额跨度从几十块到上万块(两个零到四个零),
: : 那麽一百多/一千多/一万多占比高是符合定律描述的
: : 但一个平价便当店,跨度才从五十块到几百块(一个零到两个零)
: : 那麽5678开头的结帐单比1开头的多也不是什麽奇怪事
: : 另一种情形是数据的产出本身就有刻意控制范围
: : 假设一开始为了平均投票所负担而故意让各票所间的选民数在一定范围内
: : 那麽看首数很显然的也没有太大意义
: 投票所分配人数大多在2000以下 根本不符合基本前提 一堆人还在那边乱用??
www.washingtonpost.com/wp-dyn/content/article/2009/06/20/AR2009062000004.html
前篇回文下面那段你可以再看一次,wikipedia 上面附的新闻是看尾数
投票所总票数这种东西我是不知道有什麽好看首数的
至於乱用到底是什麽样态,我也不知道,我只知道正确的用法不是看投票首数
~~
班佛原意是看「大跨度」、「随机数据」的首数
各开票所总投票数跨度不够大,加上本身就不是随机数据
本来看首数就看不出个所以然。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.36.31.23 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/ask-why/M.1636566824.A.42A.html
再补一下
最後一段的意思是
如果你看到有人在喊说为什麽一千多票的票所占不到三成
是不是有舞弊造假等等
那就可以确定他是个在唬烂的坏蛋,或者就只是个不知道班佛怎麽正确使用的笨蛋
原因「不是」票所票数不到三千票,而是投票所票数这个性质本来就不适用班佛
即便各票所人数翻三倍到上万票也一样不适用
但,如果他提出的证据是
在某场选举中,三七结尾的票所显着的比五零结尾的票所多,
那麽在报票数的这个过程就很有可能有「手动调整」过,但也仅止於报票过程。
如果是开票途中停电换票箱,或是有人趁机拿票起来整叠盖什麽选项
而在开票报票数的过程中依然正常运作,那麽尾数是不会有问题的。
※ 编辑: su31tak (114.36.31.23 台湾), 11/11/2021 02:04:30
1F:→ souldragon: 班佛定律是检验首数1~9 不是中间任何数或尾数吧.. 11/11 13:28
2F:→ souldragon: 我是不知道这定律有什麽实质意义啦 根本没啥人在用 11/11 13:29