作者incessantgas (人生勝利組YA)
看板Statistics
標題Re: [討論] 神經網路和傳統回歸分析的共通性
時間Wed Jun 24 02:36:01 2020
謝謝老師超級詳細的解答!!
如果沒會錯意的話感覺老師的見解和我想的也些相似。現在許多model,例如提到的
logistic model或是其他regression model,有一個很重要的理論叫做大數法則,基於大
數法則可以得到一些重要的統計量(mean, variance或是其他),所以可以依此推導出可以
直接apply的公式,直接fit data可以快速有效率的得到所需的parameters。
ANN其實也是透過不斷的trials來逼近理論的特性,雖然效率較差,但是現在的
computational power很強大所以不是太大問題。特別是有些data並沒有特定的patern,
這時候也許ANN可以更顯得有幫助,只是overfitting永遠也是個需要隨時提醒自己注意的
問題了。
※ 引述《incessantgas》之銘言:
: 在進行線性組合那個部分需要對parameters, w進行估計
: 這個部分和傳統的回歸模型非常類似
: 讓我不禁好奇是否ANN透過不斷iterate找尋最佳化w的過程
: 其實就是在創造一個擬合statistical distribution的過程?
: 如果是這樣的話,那和regression model背後的邏輯就很接近了
: 各位高手對這樣的見解看法如何?
: 若有誤解請指教,謝謝
: ※ 編輯: incessantgas (71.58.82.199 美國), 06/23/2020 01:45:15
: 推 joshddd: 同問 06/23 07:46
: → yhliu: ANN 通常採用的是 logistic form, 而它的 "參數估計" 是直 06/23 08:32
: → yhliu: 接按特定公式計算. 它是一直以新的資料更新參數, 並不考慮 06/23 08:34
: → yhliu: 參數估計方法的 "最優性", 也不考慮模型的統計適切性. 06/23 08:36
: → yhliu: 但由於 input 一直在增加 (n→∞), 所以, 最終得到的預測 06/23 08:38
: → yhliu: 模型將趨近於設定模型與事實最接近的狀態. 06/23 08:39
: → yhliu: 統計的 logistic regression model 操作上只有一組固定 n 06/23 08:40
: → yhliu: 的資料, 因此除了考慮模型的實務與統計適切性, 也考慮了估 06/23 08:42
: → yhliu: 計方法的最優性. 因為不是線性模型, 所以要得到最後的估計 06/23 08:44
: → yhliu: 或說是預測模型, 並沒有可直接套用的一次計算式, 而是用迭 06/23 08:45
: → yhliu: 代逼近的方法. 06/23 08:46
: → yhliu: 上面所說的 "統計適切性" 指的是模型中對資料所來自群體機 06/23 08:48
: → yhliu: 率分布的假設, 資料變異(分散)相關的假設等. 實務適切性是 06/23 08:50
: → yhliu: 指模型與事實是否足夠接近. 而 "最優性" 指的是估計方法產 06/23 08:53
: → yhliu: 生之估計結果與 "真實參數值" 之間誤差 "最小". "真實參數 06/23 08:55
: → yhliu: 值就是該模型與真實狀況最接近的狀態所對應的模型參數值. 06/23 08:57
: → yhliu: 統計的 "最優" 考慮一個結果就是估計值與 "真實參數值" 最 06/23 08:59
: → yhliu: 接近 (相同 n), 或最快趨近 (n→∞). 但由於 ANN 面對的是 06/23 09:00
: → yhliu: n→∞, 對趨近最終值速度及前面的有限 n 並不注重, 所以只 06/23 09:02
: → yhliu: 是取一個合理、易算的參數估計方法, 而不像統計人員精打細 06/23 09:04
: → yhliu: 算地想用有限 n 筆資料得到最接近真實參數值的估計. 06/23 09:06
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 71.58.82.199 (美國)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1592937363.A.B7C.html
1F:→ yhliu: 大數法則是說: 資料數量足夠時(樣本數足夠大, n→∞)樣本足 06/24 04:45
2F:→ yhliu: 以代表群體. 以ANN來說, 就是愈來愈多的資料饙入, 配合誤差 06/24 04:47
3F:→ yhliu: 反饙修正參數, 可以使最後模型達 "最接近" 事實的程度. 但 06/24 04:49
4F:→ yhliu: 這 "最接近" 仍有其限度, ANN 因為考慮了足夠多的有效預測 06/24 04:51
5F:→ yhliu: 變量, 才能有高的預測率, 並非任意丟足夠的資料就有足夠的 06/24 04:52
6F:→ yhliu: 預測能力. 雖然不是很恰當的比喻, 但仍可類比: 比如事實是 06/24 04:54
7F:→ yhliu: Y 的變化需要以 X,Z,W 等用複雜的數學式描述, 設定的模型卻 06/24 04:56
8F:→ yhliu: 是用 X 的直線函數 Y, 即使給一億筆資料也無法得到真正接近 06/24 04:58
9F:→ yhliu: 事實的結果. 不過, 樣本數足夠大時是足過讓 Y = a+bX "最接 06/24 04:59
10F:→ yhliu: 近" 地預測 Y. 還有一點是 "樣本" 的代表性.如果 ANN 前期 06/24 05:01
11F:→ yhliu: 入的資料和後期特性上差很多, 即使前期投入再多資料, 對後 06/24 05:03
12F:→ yhliu: 期的預測準確度也沒有幫助. 就好像統計上說樣本有偏, 估計 06/24 05:05
13F:→ yhliu: 出來的結果也有偏. 所謂 "代表性" 不是簡單一個 "平均" 所 06/24 05:07
14F:→ yhliu: 能概括的. 統計上講究 "隨機樣本", 只有樣本隨機, 才能在各 06/24 05:09
15F:→ yhliu: 種特性上模仿群體, 也才能達到 "大數法則" 描述的效果. 06/24 05:10
16F:→ yhliu: 統計上和 ANN 是不同的, 資料取得不是無價的, 反而有時是很 06/24 05:12
17F:→ yhliu: 昂貴的. 因此, 統計由早期的 "大樣本" 而轉變成現在的 "小 06/24 05:13
18F:→ yhliu: 樣本". 也許有人說現在資訊量爆炸, 到處充塞了大數據. 沒鍺 06/24 05:15
19F:→ yhliu: 所以現在也有專門大數據的統計, 它所著重的和現行小樣本統 06/24 05:16
20F:→ yhliu: 計方法是兩回事, 它甚至不需要講求 "代表性". 但對於許多問 06/24 05:18
21F:→ yhliu: 題, 大數據解決不了. 例如某種藥是否有效, 某藥廠製出的藥 06/24 05:20
22F:→ yhliu: 是否同原廠藥 "等效", 哪種教學法較好? 商品廣告效果好不好 06/24 05:22
23F:→ yhliu: 許許多多問題, 或者根本不容易取得大量具代表性的資料, 或 06/24 05:23
24F:→ yhliu: 者成本(經費)所限只能取得有限資料, 不可能說: 多取些資料 06/24 05:25
25F:→ yhliu: 就可以, 何必追求 "統計效率"? 何況這些因應特定問題而蒐集 06/24 05:27
26F:→ yhliu: 的資料, 不只蒐集不易, 耗時耗財, 把它轉成可電腦處理讓計 06/24 05:29
27F:→ yhliu: 算變得容易還要再耗費一些精力經費, 何況蒐集的資料還有各 06/24 05:31
28F:→ yhliu: 種可能誤差偏誤來源因而限制了我們可取得的資料數. 所以, 06/24 05:32
29F:→ yhliu: 不是一個 "大數法則" 能解決所有問題, 要不然統計也不會由 06/24 05:33
30F:→ yhliu: 大樣本時代走向小樣本時代. 06/24 05:34
31F:→ incessantgas: 這個解釋更加全面完整!! 06/24 18:30
32F:→ incessantgas: 再次感謝 06/24 18:30