作者Nzing (黑色神话)
看板B95305XXX
标题Re: [嘴炮] stata9.0版graphics指令
时间Thu Nov 2 23:07:55 2006
※ 引述《nightmuse (peace)》之铭言:
: ※ 引述《Nzing (黑色神话)》之铭言:
: 所以我可以说fraction和percent的差别只在一个是以小数表示一个是以百分比表示吗?
是
: 还是其实他们在运算过程中有不同?
: : density scale在表示资料分布的probability density function
: : 以上例而言,选择density scale,对应到y-axis为0.05
: : 其最大值是(1/组距),1的意思是:
: : discrete data表示Σ_i[第i组组距*第i组相对次数] = 1
: : continuous data表示整个distribution积分值为1
: 糟糕这两行我看不懂他代表的意思是什麽 XD
囧,第一行我打错了,应该Σ_i[第i组组距*第i组的density] = 1
第一行以下面那个例子来说,11-20岁间每个年龄机率都是0.05,
所以乘上组距10,等於相对次数0.5
每组都这样处理,最後各组相对次数的总和会等於1,也就是100%
: 不过简单来讲就是下面那个例子的概念就是了。
: 我早上看density跟fraction值一样大概是眼残…… orz
取width=1和相同的组中点就会让两个值一样
下面那个例子不好,因为discrete看起来没什麽问题。
(以下解释第二行,不看也无所谓...)
但遇到continuous data就不一样
假设年龄这个时间是连续的,指定任何一个时间x岁,
p(x)就是density显示的取值函数,随机抽取一笔资料,刚好年龄为x岁的机率为
x
∫ p(x) dx = 0 for all x in R
x
如果不知道为什麽上面的个式子会等於0,
可以想像要抽到一笔资料,年龄刚好11年整一秒不差,
这机率很低(可以严格证明这机率等於0,但bbs上很难打XD)。
这时候只能指定一个范围,例如说10≦x≦20,
才有可能让积分的取值大於0,也就是x出现在这个范围内的机率大於0。
为了把它画成histogram,每条width=10
20
∫ p(x) dx 就是10≦x≦20这组的相对次数 (就是第二行想讲的东西)
10
在histogram的density scale上,
表示在10≦x≦20这区间内,取任意长度为1的区间,ex. 11.2≦x≦12.2
即估计年龄出现在这区间内机率为(相对次数/10)。
当然,可以看出(一般而言)原始组距愈小(上例组距为10),
估计特定区间的机率愈接近真实状况。
到後面用一堆连续的机率分配做区间估计或建模时,理解这个会比较方便。
: : (可以注意一下对连续和离散资料,stata取组中点的方式不一样,
: : 但可以手动设定width和lower limit/minimum让两者输出相同的结果。)
: : 以上例而言,可以宣称:随机选取一笔资料(即每笔资料抽中机率皆相等),
: : 该笔资料年龄为11岁的机率为0.05
: : 为12岁的机率为0.05
: : ....
: : 为20岁的机率为0.05
: : 在11-15岁的机率为0.05*5=0.25 (以上假设年龄为discrete)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.252.222
※ 编辑: Nzing 来自: 140.112.252.222 (11/03 09:27)