NCHU-AE98 板


LINE

(续) stata强大的功能体现在它可以方便地回归微观资料。而回归也是微观实证中最重要的方 法。下面就开始讲stata中和回归有关的常用命令。 基本回归方法有两种:线性设定下的最小二乘法(OLS)和两阶段最小二乘法(2SLS)。 他们在实证分析中应用广泛,十分详细地掌握这两种方法是实证研究的基本要求。讲解的 顺序是先依次介绍如何在stata中实现OLS和2SLS估计,然後再分析如何在实际问题中选择 合理的方法。後一部分受Joshua Angrist教授的影响很大,因此,在後面引用他的思想时 会详细注明。 假设你已经清楚地了解待估计方程的形式,那麽回归命令的基本格式就十分简单明了: reg (被解释变数) (解释变数1) (解释变数2)…… 方程中的相应变数可以简单地放在reg的後面。执行上面的命令後,stata会出现两个表格 ,分别报告一些方差分析和回归的参数估计结果。我们最关心的是参数的大小和显着性, 这在第二个表格中列出。表格的最左边一栏列出了解释变数,在它的右边是相应的系数估 计值,然後依次是估计值的标准误,t比率,原假设为系数的真实值等於零时错误地拒绝 该假设的概率——p值,以及该估计值的置信度为(1-5%)的置信区间。 我看到回归结果的第一眼是瞄着最关心的解释变数的符号、大小和显着性。看看解释变数 影响的方向和大小是不是符合理论的预期,是不是合乎常识,以及这个估计值是不是显着 。标记显着性的统计量是t统计量,在经典假设下,它服从t分布。t分布和标准正态分布 形状很相似,但它的“尾巴”要比标准正态分布的“肥”一些,在样本量比较小的时候尤 其明显,当样本量趋於无穷时,t分布的极限分布是标准正态分布。大家对标准正态分布 的分布函数上一些关键点比较熟悉,比如,1.96是97.5%的关键点,1.64是95%的关键点, 所以,我们希望知道什麽时候可以安全地使用标准正态分布。下表列出了一些小自由度下 二者的差异(Beyer 1987 “CRC Standard Mathematical Tables, 28th ed.”; Goulden 1956 “Methods of Statistical Analysis, 2nd ed.”)。可以看出,自由度 超过一百时,二者的差别就已经相当小了。所以,当样本量的数量级是100个或以上时, 可以直接认为t比率服从标准正态分布,并以此做检验。 90% 95% 97.5% 99.5% 1 3.07768 6.31375 12.7062 63.6567 2 1.88562 2.91999 4.30265 9.92484 3 1.63774 2.35336 3.18245 5.84091 4 1.53321 2.13185 2.77645 4.60409 5 1.47588 2.01505 2.57058 4.03214 10 1.37218 1.81246 2.22814 3.16927 30 1.31042 1.69726 2.04227 2.75000 100 1.29007 1.66023 1.98397 2.62589 1.28156 1.64487 1.95999 2.57588 读者读到这里可能会笑话我了,stata不是已经报告了t检验的p值和置信区间了吗?为什 麽不直接察看这些结果呢?原因在於实证文献往往只报告参数的估计值和标准误,需要读 者自己将估计值和标准误相除,计算显着性。而且当你在写实证文章时,也应该报告参数 的估计值和标准误。这比报告估计值和它的p值更规范。 伴随回归命令的一个重要命令是predict。回归结束後,使用它可以得到和回归相关的一 些关键统计量。语法如下: predict (新变数名), (统计量名) 这里的统计量名是一些选项。常用的选项有:xb(回归的拟合值。这是预设选项,即不加 任何选项时,predict赋予新变数前一个回归的拟合值。);residuals(残差); leverage(杠杆值)。下面具一个例子来解释predict的用法。 有时样本中的一个特别的观察值会显着地改变回归结果。这样的观察值可以笼统地分为三 类:outliers,leverage和influence。Outliers是针对残差而言的,指那些回归中残差 很大的观察;leverage是针对解释变数而言的,是解释变数相对其平均值偏里很大的观察 ;influence是针对估计结果而言的。如果去掉这个观察会明显地改变估计值,那麽这个 观察就是一个influence。Influence可以看作outliers和leverage共同作用的结果。异常 观察可能是由於样本的特性,也可能是因为录入错误。总之,我们希望找到它们。 回归後的predict命令可以发现这些异常观察(命令来自UCLA的“Regression with Stata ”第二章)。发现outliers,leverage和influence的命令如下: predict rs, rstudent predict l, leverage predict csd, cooksd predict df, dfits 这些统计量都有相应的关键值。当统计量(或其绝对值)超过关键值时就应该仔细检查相 应的观察,确认是否属於录入错误。rstudent是用来发现outliers的统计量,其关键值是 2,2.5和3。leverage 是用来发现leverage 的统计量,其关键值是(2k+2)/n,其中k解释 变数的个数,n是样本量。Cooksd和DFITS是探测influence的统计量。它们都综合了残差 和杠杆的资讯,而且二者非常类似,只是单位不同,因而给出的结果也差不多。Cooksd的 关键值是4/n。DFITS的关键值是2*sqrt(k/n)。 --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.120.95.44







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP