作者souldragon (依法不依人)
看板ask-why
标题Re: [请益] 班佛定律至少要有3000样本数是怎麽算的?
时间Wed Nov 10 00:51:18 2021
※ 引述《su31tak (su31tak)》之铭言:
: 这定律原意是
: 当有很多笔数据时,1开头的数据会占个三成左右,2345依次递减
: 那,一坨数据里面要有接近什麽%数的1开头这种事,需要的是这坨数据够大坨
: 而不是这坨数据里面每个资料值都超过3000
: 举帐目造假的例子来说
: 是卖场要有3000笔以上的销售资料才能用它来验算
: 而不是3000元以上的帐单才能应用这个定律
应该不是这样喔 这定律是检验所有数字的头1~9
1的比例约占30% 一直递减到9 原因是十进位都是从1开始累进
所以所谓的随机数据一定要3000以上 若随机数据只有1~9 则结果是各占1/9
0~100 1开头的比例也不会有30% 一定要数据范围够大才会如此 3000应该是这样来的
(不然考试成绩可以用班佛定律?? 最多人考10几分 90几分的人最少?? )
若帐单数字每笔都很小 例如文具店帐单 单笔几乎都在500以内 就不能用班佛定律
投票所人口也是如此 每个票所母数至少要5000 平均投票率六成以上才符合条件
: 但这个定律除了数据要够大坨之外,数据的跨度也要够大才适用
: 一样用帐目造假为例
: 如果大卖场的结帐金额跨度从几十块到上万块(两个零到四个零),
: 那麽一百多/一千多/一万多占比高是符合定律描述的
: 但一个平价便当店,跨度才从五十块到几百块(一个零到两个零)
: 那麽5678开头的结帐单比1开头的多也不是什麽奇怪事
: 另一种情形是数据的产出本身就有刻意控制范围
: 假设一开始为了平均投票所负担而故意让各票所间的选民数在一定范围内
: 那麽看首数很显然的也没有太大意义
投票所分配人数大多在2000以下 根本不符合基本前提 一堆人还在那边乱用??
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.168.234.142 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/ask-why/M.1636476681.A.CE2.html
※ 编辑: souldragon (118.168.234.142 台湾), 11/10/2021 01:01:09