作者mushiue (mushiue)
看板NCHU-AE98
标题[心得] [转录]我常用到的stata命令 (七)
时间Thu Nov 18 20:52:39 2010
中心牛师兄的大作,转帖过来 呵呵
我常用到的stata命令:
(续)
在使用最小二乘法估计时,两个通常被质疑的问题是资料是否存在多重共线性和异方差。
多重共线性是指解释变数之间的相关性。通常我们假设解释变数之间是相关的,而且允许
解释变数存在相关性,并控制可以观察的因素正是OLS的优点。如果把多重共线性看作一
个需要解决的问题,那麽需要把它解释为相关性“较大”。这样,变数之间没有相关性不
好,相关性太大也不好,优劣的分割真是颇费琢磨。而且多重共线性并没有违反任何经典
假定,所以,这个问题没有很好的定义。本质上讲,在样本给定时,多重共线性问题无法
解决,或者说它是一个伪问题。
先看一下为什麽解释变数之间的相关性大会有问题。在OLS回归的经典假设(除正态假设
外)下,某个系数的OLS估计值的总体方差与扰动项的方差成正比,与解释变数的总方差
(一般地,我们视解释变数为随机变数)成反比,是该变数对其它解释变数回归的拟合优
度的增函数。这个拟合优度可以理解为该变数的总变动中可以由其他解释变数解释的部分
。当这个值趋近於1时,OLS估计值的总体方差趋向於无穷大。总体方差大时,样本方差也
大的概率就大,t检验就会不准确。尽管多重共线性没有违背任何经典假设,但是OLS方法
有时无法准确估计一些参数。这个问题可以理解为资料提供的资讯不足以精确地计算出某
些系数。最根本的解决方法当然是搜集更大的样本。如果样本给定,也许我们应该修改提
出的问题,使我们能够根据样本资料做出更精确的判断。去掉一个解释变数,或者合并一
些解释变数可以减少多重共线性。不过要注意的是去掉相关的解释变数会使估计有偏。
实际操作时使用方差膨胀系数衡量解释变数的多重共线性。我们只需在回归之後使用vif
命令就可以得到方差膨胀系数。在命令列中敲入vif并回车,stata会报告一个包含所有解
释变数的方差膨胀系数的表格,如果方差膨胀系数大於10,这个变数潜在地有多重共线性
问题。
异方差是一个更值得关注的问题。首先简单地介绍一下异方差会带来哪些问题。第一、异
方差不影响OLS估计的无偏性和一致性。第二、异方差使估计值方差的估计有偏,所以此
时的t核对总和置信区间无效。第三、F统计量不再服从F分布,LM统计量不再服从渐进卡
方分布,相应的检验无效。第四、异方差使OLS不再是有效估计。总之,异方差影响推断
是否有效,降低估计的效率,但对估计值的无偏性和一致性没有影响。
知道了异方差作用的原理,很自然地就有了对付它的办法。第一种方法是在不知道是否存
在异方差时,通过调整相应的统计量纠正可能带来的偏差。OLS中实现对异方差稳健的标
准误很简便。相应的命令是在原来的回归命令後面加上robust选项。如下:
reg (被解释变数) (解释变数1) (解释变数2)……,robust
White(1980)证明了这种方法得到的标准误是渐进可用(asymptotically valid)的。
这种方法的优点是简单,而且需要的资讯少,在各种情况下都通用。缺点是损失了一些效
率。
另一种方法是通过直接或间接的方法估计异方差的形式,并获得有效估计。典型的方法是
WLS(加权最小二乘法)。WLS是GLS(一般最小二乘法)的一种,也可以说在异方差情形
下的GLS就是WLS。在WLS下,我们设定扰动项的条件方差是某个解释变数子集的函数。之
所以被称为加权最小二乘法,是因为这个估计最小化的是残差的加权平方和,而上述函数
的倒数恰为其权重。
在stata中实现WLS的方法如下:
reg (被解释变数) (解释变数1) (解释变数2)…… [aweight=变数名]
其中,aweight後面的变数就是权重,是我们设定的函数。
一种经常的设定是假设扰动项的条件方差是所有解释变数的某个线性组合的指数函数。在
stata中也可以方便地实现:
首先做标准的OLS回归,并得到残差项;
reg (被解释变数) (解释变数1) (解释变数2)……
predict r, resid
生成新变数logusq,并用它对所有解释变数做回归,得到这个回归的拟合值,再对这个拟
合值求指数函数;
gen logusq=ln(r^2)
reg logusq (解释变数1) (解释变数2)……
predict g, xb
gen h=exp(g)
最後以h作为权重做WLS回归;
reg (被解释变数) (解释变数1) (解释变数2)…… [aweight=h]
如果我们确切地知道扰动项的协方差矩阵的形式,那麽GLS估计是最小方差线性无偏估计
,是所有线性估计中最好的。显然它比OLS更有效率。虽然GLS有很多好处,但有一个致命
弱点:就是一般而言我们不知道扰动项的协方差矩阵,因而无法保证结果的有效性。
到现在我们已经有了两种处理异方差的方法:一是使用对异方差稳健的标准误调整t统计
量,并以此作推断;另一种是设定异方差的形式,使用可行的GLS得到有效估计。下面总
结一下标准的OLS估计同上述两种方法的优劣,并结合检验异方差的方法,给出处理异方
差的一般步骤。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.120.95.44