Statistics 板


LINE

[軟體程式類別]: Microsoft Excel 2007 [程式問題]: 線性迴歸的公式問題 [軟體熟悉度]: 熟悉 [問題敘述]: 想藉由程式給出的數值做進一步分析,卻不知道該怎麼下手。 一般的單變數線性迴歸公式在高中數學課程中已有提及: 迴歸直線的斜率、y 截距、相關係數的公式及意義。 在分析數據時偶爾會先規定好 y 截距(例如已知二變量成正比), Excel 也有提供這個功能,而且仍能算出一個「R^2」, 但此時這個 R 與原始數據的相關係數並不相同。 (至於斜率則確定是由最小平方法決定:Sum(XY)/Sum(X^2)。) 經過測試,前述的「R^2」的公式如下: <XY>^2-<X^2><Y>^2 + 2b * (<X^2><Y>-<X><XY>) - b^2 * (<X^2>-<X>^2) -------------------------------------------------------------------, <X^2>(<Y^2>-<Y>^2) 其中 b 是預設的 y 截距,<Z> 代表數據 {Z_i}_{i=1}^{n} 的平均值。 若考慮的是「Y 與 X 應該要成正比」,即 b=0, 則「R^2」的公式簡化為 <XY>^2-<X^2><Y>^2 --------------------。 <X^2>(<Y^2>-<Y>^2) 已經知道的是:R^2≦1,且隨著 b 而變化的最大值就是相關係數^2。 如同一開始所說,想要針對 R^2 這個數值去分析數據, 但是卻遇到 R^2 可能出現負值(這點由公式可簡單看出), 所以似乎難以將它詮釋成與「相關係數」類似的概念。 那到底應該怎麼去詮釋才合理呢? 以上就是想問的問題。因為關於統計大概只知道 高中程度+能用微積分計算一些分佈,所以寫得可能不是那麼專業, 還望各位大大海涵並先謝謝各位指導。 [題外]: 打完才發現我並不是對程式碼有問題,這樣的話分類在程式真的對嗎? 不對的話請告訴我,我會改標題。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.122.4
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1483264557.A.71F.html
1F:→ andrew43: 「先規定好 y 截距(例如已知二變量成正比)」你確定? 01/02 11:52
擬合用的模型是 y=ax (這就是手動規定 y 截距=0) 極小化 Σ(y_i - a*x_i)^2 得到 a=[Σ(x_i*y_i)]/[Σ(x_i^2)] 不過至少物理上這個做法滿常用到。 因為很多模型已經確定是正確的,例如測量一物體的密度:D=M/V。 在校正過所使用的儀器後, 1. 把測得的質量對體積作圖,計算迴歸直線斜率。 2. 把測得的質量對體積作圖,計算最佳過原點直線的斜率。 3. 對每筆數據計算 M/V,再求其平均。 以上三個方法應該都可行,只是今天剛好選了2而已。 還是說這個方法就是胡說八道而已呢? ※ 編輯: Vulpix (61.230.122.4), 01/02/2017 13:08:51
2F:推 andrew43: 你的意思應該是截距為0而不是固定截距。就算不為0,變 01/02 13:14
3F:→ andrew43: 數間仍可存在正相關。 01/02 13:14
4F:→ andrew43: 有截距項的最小平方法回歸的R2才會是Pearson相關的平方 01/02 13:17
5F:→ andrew43: 。 01/02 13:17
6F:→ Vulpix: 我說的「先」是指在選定模型的時候就不考慮截距非0的可能 01/02 13:20
7F:→ Vulpix: 那……這樣跟我先固定了截距=0有差嗎? 01/02 13:21
8F:→ arbiteron: 畫資料散佈圖跟你的模型看看,配適結果可能比水平線還差 01/02 14:33
9F:→ Vulpix: 這個我知道,可是我想問的是這樣的「R^2」應該如何詮釋。 01/02 14:50
10F:→ andrew43: 我沒檢查你的R^2算對了沒,但它不可能小於0。 01/02 15:41
11F:→ andrew43: 如果算對了,R^2的意義一直是存在的,和相關不必有關係 01/02 15:42
12F:→ andrew43: 意義就是「總變異能被迴歸線解釋的量」。 01/02 15:43
13F:→ Vulpix: Excel給的數字就是會有負的,所以才難以想像… 01/02 17:29
14F:→ b99703117: 不放截距項,R2就可能會是負的;而且也不能用一般 01/02 18:14
15F:推 andrew43: 那就是算錯了,或者不知道算成什麼東西。 01/02 18:15
16F:→ b99703117: 教科書上的敘述去解釋。 01/02 18:15
17F:→ b99703117: 另外一提,我認為你的資料很可能不同意截距為0的假設 01/02 18:18
18F:→ b99703117: 你可以跑一個一般的OLS,然後檢定常數項=0試試看 01/02 18:18
我想應該是我的說法有問題…… Excel 給了 R^2, 但沒有一個地方找的到公式,那個公式是我自己嘗試幾筆數據後歸納而得。 (也經過多筆隨機產生的數據驗證過,所以程式給的 R^2 就是這麼算的。) 目前遇到的數據若真的「應該」成正比,那用這個模型擬合的效果其實不差。 而 R^2 也頗接近 1,通常也比相關係數^2小。 但是「從公式來看」,R^2 有可能是負值, 所以不應該單純以相關係數的角度去詮釋它。 甚至,它似乎應該當成某種更廣義的東西,但那到底是什麼? 經過配方,公式可改寫成: R^2 = r^2 - (σ_X/σ_Y)^2 / <X^2> * (b-"最佳b")^2 其中 r 是 Pearson 相關係數, σ_Z 表示 Z 這組數據的樣本標準差, "最佳b" 則是一般線性迴歸所得的 y 截距。 ※ 編輯: Vulpix (61.230.122.4), 01/02/2017 18:49:06
19F:→ andrew43: https://goo.gl/nJ97Ub 情況不太一樣但應該是答案。 01/17 10:19
20F:→ andrew43: 還有 https://goo.gl/MLKMRhttps://goo.gl/INERWa 01/17 10:21
21F:→ Vulpix: 抱歉,這麼晚才看到這篇。我要找的就是樓上給的,感恩! 04/09 14:24







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP