作者saltlake (SaltLake)
看板Statistics
標題[問題] 平均的最小方差近似
時間Wed Aug 7 07:44:04 2024
一般我們做最小方差近似,就是把(樣本)數據代入模型,
然後根據最小方差的原理,求出模型的參數組,然後就用
這參數組代入模型,去估計數據點以外的反應(或函數)值
。
可是這些參數其實也是隨機變數,所以也該有個機率分
布函數、平均值、和標準差。那如果我們把樣本數據隨機
分成十組,用這十組數據分別求出十組參數組,然後求出
參數值中每一參數的平均值,再用這組參數去估計數據點
以外的反應。這個平均的最小方差函數得到的估計值,會
否「比較好」?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.207.231 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1722987846.A.717.html
1F:→ yhliu: 參數也是隨機變數?你確定? 08/07 08:19
有本書用最小方差直線解釋
Y = a_0 + a_1*x
a_0 和 a_1 是從隨機樣本資料 x 計算來的,所以也帶有隨機性而為隨機變數
該書還給了該直線參數 a_0 和 a_1 期望值、標準偏差、和信心區間的公式
2F:→ yhliu: 統計推論有兩大學派,一個是頻率論學派,一個是貝氏學派。 08/07 08:21
3F:→ yhliu: 當然,除此之外還有其他學派,如費氏學派,但主要還是兩派 08/07 08:22
4F:→ yhliu: 頻率論的觀點認為:群體是固定定,也就是說參數是非隨機的 08/07 08:24
5F:→ yhliu: 只是我們不知道其值,所以藉隨機樣本來猜測,所以評估標準 08/07 08:26
6F:→ yhliu: 是依抽樣機制衡量平均誤差。而貝氏學派認為資料是已知的, 08/07 08:27
7F:→ yhliu: 考慮其隨機性沒必要;參數是未知的,所以用隨機模型來描述. 08/07 08:28
8F:→ yhliu: 當然在頻率論也可以把參數當成隨機的,例如 ANOVA 的隨機效 08/07 08:30
9F:→ yhliu: 果模型,迴歸分析的隨機係數模型,但最終都有未知其值的固 08/07 08:32
10F:→ yhliu: 定參數;而在貝氏分析,多層次貝氏模型的最高階參數也是隨 08/07 08:33
11F:→ yhliu: 機的。在任一模型下,總有個最適推論,這通常都是應用全部 08/07 08:35
12F:→ yhliu: 樣本資料;資料先分組而後綜合分組分析的方法,通常是為了 08/07 08:38
13F:→ yhliu: 特殊目的。例如 Jackknife, bootstrap 是為了估計參數估計 08/07 08:39
14F:→ yhliu: 的誤差;把資料分兩部分一部分用於估計參數值另一部分當測 08/07 08:40
15F:→ yhliu: 試,是為了模型適當性的交叉驗證;把資料按某種標準分組分 08/07 08:42
16F:→ yhliu: 別估計是為了更適當描述資料模型等等。 08/07 08:43
※ 編輯: saltlake (114.36.207.231 臺灣), 08/07/2024 08:56:43
17F:→ recorriendo: 你都看到分布了代進去就知道了吧 08/07 20:59
18F:→ recorriendo: y_hat=β_hat‧x, β_hat ~ N(β,(X^TX)^-1σ^2) 08/07 20:59
19F:→ recorriendo: 所以 var(y_hat)=x^T(X^TX)^-1xσ^2 現在你的X只有 08/07 21:01
20F:→ recorriendo: 原本十分之一 如果X是獨立抽樣且每個column不相關 08/07 21:04
21F:→ recorriendo: 則(X^TX)^-1只有對角線 且十分之一的data就讓每個 08/07 21:07
22F:→ recorriendo: entry大十倍 然後你取平均就只是讓var變回跟原來一樣 08/07 21:08
意思是所有資料都用來反算參數比較好?
如果分群反算參數,以估計參數信心區間,那麼之後把得到的參數平均後再代入
線性模型會比較可靠?
倘若是一般的(非線性)模型呢?
※ 編輯: saltlake (114.36.207.231 臺灣), 08/07/2024 22:39:05
23F:→ yhliu: 模型不確定,例如迴歸函數不確定是線形的,以前做法是增加 08/08 08:10
24F:→ yhliu: 由線項去檢測,或經由散佈圖或殘差圖診斷以了解較適當的迴 08/08 08:12
25F:→ yhliu: 歸函數;現今由於計算能力大幅提高,採用樣條迴歸,局部線 08/08 08:14
26F:→ yhliu: 性,核迴歸等方法建立樣本迴歸函數,但這些方法有個主要缺 08/08 08:16
27F:→ yhliu: 點是外延困難,甚至非公式化。至於模型參數估計誤差之估計 08/08 08:19
28F:→ yhliu: 或參數信賴區間之計算,除公式推導外,較一般性的方法是利 08/08 08:20
29F:→ yhliu: 用 bootstrap 重抽法。 08/08 08:21
關於參數估計誤差或信賴區間的公式推導,目前僅查到最簡單的線性模型者,
請問有哪些書提供其他模型的推導? 或者要找不同的模型堆導,有甚麼關鍵字
有助從學術論文裡面找到?
※ 編輯: saltlake (114.36.207.231 臺灣), 08/08/2024 08:28:15
30F:→ chang1248w: elements of statistical learning 08/28 17:45
31F:→ conartist: 想用什麼cost function 都行,只是要有辦法求出參數值 10/31 00:48
32F:→ conartist: 。只是剛好最小平方法能用推論得出封閉解 10/31 00:48
33F:推 conartist: 外加線性回歸用最小平方法求出的參數估計量,剛好也符 10/31 00:52
34F:→ conartist: 合統計上的不偏特性 10/31 00:52