作者amos0430 (月如)
看板B98305XXX
标题[社统] 第二次社统作业的几个问题
时间Fri Oct 23 09:43:53 2009
第二次社统作业的几个问题
STATA的部分,有同学注意到”年龄”这个选项上有人拒答,标签为”98 ”
(在此提醒同学 分析某变数前要养成先用tab确认一下的习惯)
有同学用drop if A2Y==98来处理
但不建议这样做,会把整个case都变不见
只有分析年龄没有问题
但等到分析性别的时後就会发现少一个资料点了
Drop这个指令 会砍掉整个variabe或是整个case
(翻成白话 一次砍一整行或是一整列 无法砍一小格一小格)
drop擅长处理的状况如下
资料合并档案过大 ram不够大电脑吃不下资料
这时候可能要先把模型建好 然後把不需要的变数和有missing value的样本点丢掉
当然ram不够大的问题也可以用钱解决XD
以你们现阶段而言
比较好的处理方式是在sum时加入条件
sum age if A2Y!=98
sum age if A1==2 & A2Y!=98
sum age if A1==1 & A2Y!=98
在过几堂课学到
RECODE时,用RECODE就比较方便了
因为他可以把他变成missing value而不影响其他资料
另外在"用if 条件陈述计算60岁以上的人数有多少?"或以下等题目时
有些同学用tab age if age=>60 (有些同学没有加"="但无所谓啦)
这样会列出一长串占空间
建议用sum age if age=>60
然後看obs(个数)这个选项就可以了
--
在上午课程的部分,关於如何测量教育程度以及属於哪一个尺度,同学有几种回答方法:
A.顺序尺度。这是大部分同学的回答,将他们区分成国小、国中、高中、大学、硕
士、博士等,
有一定的顺序但差距间并不不等价。(有同学没有谈到不等价差距
的部份,这样是不足的)。
B.少部分的同学注意到职业教育无法与学术教育
共量,以及自学和正规教育不一定
有顺序性,因此主张采用名目尺度。这种说法比上述得更为细致。提醒同学在分
析教育资料时一定要注意到职业教育和学术教育的差异,譬如某段时间台北工专
和建中可是同样等级的,与现今自然有很大差距,不能够单用”高中”两字就草
草带过。(当然是否要为此调整,还是要看实际分析上的需求)
C.有些同学提出一份涵盖幼稚园到博士的一份测验卷,用此来衡量。这种方式固然
可以解决自学的问题。但是这样写的同学也发现到到了大学以上这样的方式就会
出现很大的问题。我个人认为一个
更根本的问题在於,当你用这份测验去衡量离开
学校30年或3年的人,就算同等学历也会有很大差距,更不用提这之间教材的变化
了。
D.这次几乎没有人提到以
教育年数来衡量教育程度。这个作法经常被使用,虽然只是
为了方便,而招致相当多的批评。但这个作法能捕捉到
[教育程度作为承受「耗在
学校里」这一时间损失的能力]。在此种作法时,教育程度就是比例尺度,适合初
阶的统计者做回归分析。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.4.235