作者mushiue (mushiue)
看板NCHU-AE98
標題[轉錄]我常用到的stata命令(六)
時間Thu Nov 18 20:51:53 2010
(續)
stata強大的功能體現在它可以方便地回歸微觀資料。而回歸也是微觀實證中最重要的方
法。下面就開始講stata中和回歸有關的常用命令。
基本回歸方法有兩種:線性設定下的最小二乘法(OLS)和兩階段最小二乘法(2SLS)。
他們在實證分析中應用廣泛,十分詳細地掌握這兩種方法是實證研究的基本要求。講解的
順序是先依次介紹如何在stata中實現OLS和2SLS估計,然後再分析如何在實際問題中選擇
合理的方法。後一部分受Joshua Angrist教授的影響很大,因此,在後面引用他的思想時
會詳細注明。
假設你已經清楚地瞭解待估計方程的形式,那麼回歸命令的基本格式就十分簡單明瞭:
reg (被解釋變數) (解釋變數1) (解釋變數2)……
方程中的相應變數可以簡單地放在reg的後面。執行上面的命令後,stata會出現兩個表格
,分別報告一些方差分析和回歸的參數估計結果。我們最關心的是參數的大小和顯著性,
這在第二個表格中列出。表格的最左邊一欄列出了解釋變數,在它的右邊是相應的係數估
計值,然後依次是估計值的標準誤,t比率,原假設為係數的真實值等於零時錯誤地拒絕
該假設的概率——p值,以及該估計值的置信度為(1-5%)的置信區間。
我看到回歸結果的第一眼是瞄著最關心的解釋變數的符號、大小和顯著性。看看解釋變數
影響的方向和大小是不是符合理論的預期,是不是合乎常識,以及這個估計值是不是顯著
。標記顯著性的統計量是t統計量,在經典假設下,它服從t分佈。t分佈和標準正態分佈
形狀很相似,但它的“尾巴”要比標準正態分佈的“肥”一些,在樣本量比較小的時候尤
其明顯,當樣本量趨於無窮時,t分佈的極限分佈是標準正態分佈。大家對標準正態分佈
的分佈函數上一些關鍵點比較熟悉,比如,1.96是97.5%的關鍵點,1.64是95%的關鍵點,
所以,我們希望知道什麼時候可以安全地使用標準正態分佈。下表列出了一些小自由度下
二者的差異(Beyer 1987 “CRC Standard Mathematical Tables, 28th ed.”;
Goulden 1956 “Methods of Statistical Analysis, 2nd ed.”)。可以看出,自由度
超過一百時,二者的差別就已經相當小了。所以,當樣本量的數量級是100個或以上時,
可以直接認為t比率服從標準正態分佈,並以此做檢驗。
90% 95% 97.5% 99.5%
1 3.07768 6.31375 12.7062 63.6567
2 1.88562 2.91999 4.30265 9.92484
3 1.63774 2.35336 3.18245 5.84091
4 1.53321 2.13185 2.77645 4.60409
5 1.47588 2.01505 2.57058 4.03214
10 1.37218 1.81246 2.22814 3.16927
30 1.31042 1.69726 2.04227 2.75000
100 1.29007 1.66023 1.98397 2.62589
1.28156 1.64487 1.95999 2.57588
讀者讀到這裡可能會笑話我了,stata不是已經報告了t檢驗的p值和置信區間了嗎?為什
麼不直接察看這些結果呢?原因在於實證文獻往往只報告參數的估計值和標準誤,需要讀
者自己將估計值和標準誤相除,計算顯著性。而且當你在寫實證文章時,也應該報告參數
的估計值和標準誤。這比報告估計值和它的p值更規範。
伴隨回歸命令的一個重要命令是predict。回歸結束後,使用它可以得到和回歸相關的一
些關鍵統計量。語法如下:
predict (新變數名), (統計量名)
這裡的統計量名是一些選項。常用的選項有:xb(回歸的擬合值。這是預設選項,即不加
任何選項時,predict賦予新變數前一個回歸的擬合值。);residuals(殘差);
leverage(杠杆值)。下面具一個例子來解釋predict的用法。
有時樣本中的一個特別的觀察值會顯著地改變回歸結果。這樣的觀察值可以籠統地分為三
類:outliers,leverage和influence。Outliers是針對殘差而言的,指那些回歸中殘差
很大的觀察;leverage是針對解釋變數而言的,是解釋變數相對其平均值偏裡很大的觀察
;influence是針對估計結果而言的。如果去掉這個觀察會明顯地改變估計值,那麼這個
觀察就是一個influence。Influence可以看作outliers和leverage共同作用的結果。異常
觀察可能是由於樣本的特性,也可能是因為錄入錯誤。總之,我們希望找到它們。
回歸後的predict命令可以發現這些異常觀察(命令來自UCLA的“Regression with Stata
”第二章)。發現outliers,leverage和influence的命令如下:
predict rs, rstudent
predict l, leverage
predict csd, cooksd
predict df, dfits
這些統計量都有相應的關鍵值。當統計量(或其絕對值)超過關鍵值時就應該仔細檢查相
應的觀察,確認是否屬於錄入錯誤。rstudent是用來發現outliers的統計量,其關鍵值是
2,2.5和3。leverage 是用來發現leverage 的統計量,其關鍵值是(2k+2)/n,其中k解釋
變數的個數,n是樣本量。Cooksd和DFITS是探測influence的統計量。它們都綜合了殘差
和杠杆的資訊,而且二者非常類似,只是單位不同,因而給出的結果也差不多。Cooksd的
關鍵值是4/n。DFITS的關鍵值是2*sqrt(k/n)。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.120.95.44