Re: [討論] 神經網路和傳統回歸分析的共通性

時間Wed Jun 24 02:36:01 2020

謝謝老師超級詳細的解答!! 如果沒會錯意的話感覺老師的見解和我想的也些相似。現在許多model，例如提到的 logistic model或是其他regression model，有一個很重要的理論叫做大數法則，基於大數法則可以得到一些重要的統計量(mean, variance或是其他)，所以可以依此推導出可以直接apply的公式，直接fit data可以快速有效率的得到所需的parameters。 ANN其實也是透過不斷的trials來逼近理論的特性，雖然效率較差，但是現在的 computational power很強大所以不是太大問題。特別是有些data並沒有特定的patern，這時候也許ANN可以更顯得有幫助，只是overfitting永遠也是個需要隨時提醒自己注意的問題了。 ※ 引述《incessantgas》之銘言： : 在進行線性組合那個部分需要對parameters, w進行估計 : 這個部分和傳統的回歸模型非常類似 : 讓我不禁好奇是否ANN透過不斷iterate找尋最佳化w的過程 : 其實就是在創造一個擬合statistical distribution的過程? : 如果是這樣的話，那和regression model背後的邏輯就很接近了 : 各位高手對這樣的見解看法如何? : 若有誤解請指教，謝謝 : ※ 編輯: incessantgas (71.58.82.199 美國), 06/23/2020 01:45:15 : 推 joshddd: 同問 06/23 07:46 : → yhliu: ANN 通常採用的是 logistic form, 而它的 "參數估計" 是直 06/23 08:32 : → yhliu: 接按特定公式計算. 它是一直以新的資料更新參數, 並不考慮 06/23 08:34 : → yhliu: 參數估計方法的 "最優性", 也不考慮模型的統計適切性. 06/23 08:36 : → yhliu: 但由於 input 一直在增加 (n→∞), 所以, 最終得到的預測 06/23 08:38 : → yhliu: 模型將趨近於設定模型與事實最接近的狀態. 06/23 08:39 : → yhliu: 統計的 logistic regression model 操作上只有一組固定 n 06/23 08:40 : → yhliu: 的資料, 因此除了考慮模型的實務與統計適切性, 也考慮了估 06/23 08:42 : → yhliu: 計方法的最優性. 因為不是線性模型, 所以要得到最後的估計 06/23 08:44 : → yhliu: 或說是預測模型, 並沒有可直接套用的一次計算式, 而是用迭 06/23 08:45 : → yhliu: 代逼近的方法. 06/23 08:46 : → yhliu: 上面所說的 "統計適切性" 指的是模型中對資料所來自群體機 06/23 08:48 : → yhliu: 率分布的假設, 資料變異(分散)相關的假設等. 實務適切性是 06/23 08:50 : → yhliu: 指模型與事實是否足夠接近. 而 "最優性" 指的是估計方法產 06/23 08:53 : → yhliu: 生之估計結果與 "真實參數值" 之間誤差 "最小". "真實參數 06/23 08:55 : → yhliu: 值就是該模型與真實狀況最接近的狀態所對應的模型參數值. 06/23 08:57 : → yhliu: 統計的 "最優" 考慮一個結果就是估計值與 "真實參數值" 最 06/23 08:59 : → yhliu: 接近 (相同 n), 或最快趨近 (n→∞). 但由於 ANN 面對的是 06/23 09:00 : → yhliu: n→∞, 對趨近最終值速度及前面的有限 n 並不注重, 所以只 06/23 09:02 : → yhliu: 是取一個合理、易算的參數估計方法, 而不像統計人員精打細 06/23 09:04 : → yhliu: 算地想用有限 n 筆資料得到最接近真實參數值的估計. 06/23 09:06 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 71.58.82.199 (美國) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1592937363.A.B7C.html

1^F：→ yhliu: 大數法則是說: 資料數量足夠時(樣本數足夠大, n→∞)樣本足 06/24 04:45

2^F：→ yhliu: 以代表群體. 以ANN來說, 就是愈來愈多的資料饙入, 配合誤差 06/24 04:47

3^F：→ yhliu: 反饙修正參數, 可以使最後模型達 "最接近" 事實的程度. 但 06/24 04:49

4^F：→ yhliu: 這 "最接近" 仍有其限度, ANN 因為考慮了足夠多的有效預測 06/24 04:51

5^F：→ yhliu: 變量, 才能有高的預測率, 並非任意丟足夠的資料就有足夠的 06/24 04:52

6^F：→ yhliu: 預測能力. 雖然不是很恰當的比喻, 但仍可類比: 比如事實是 06/24 04:54

7^F：→ yhliu: Y 的變化需要以 X,Z,W 等用複雜的數學式描述, 設定的模型卻 06/24 04:56

8^F：→ yhliu: 是用 X 的直線函數 Y, 即使給一億筆資料也無法得到真正接近 06/24 04:58

9^F：→ yhliu: 事實的結果. 不過, 樣本數足夠大時是足過讓 Y = a+bX "最接 06/24 04:59

10^F：→ yhliu: 近" 地預測 Y. 還有一點是 "樣本" 的代表性.如果 ANN 前期 06/24 05:01

11^F：→ yhliu: 入的資料和後期特性上差很多, 即使前期投入再多資料, 對後 06/24 05:03

12^F：→ yhliu: 期的預測準確度也沒有幫助. 就好像統計上說樣本有偏, 估計 06/24 05:05

13^F：→ yhliu: 出來的結果也有偏. 所謂 "代表性" 不是簡單一個 "平均" 所 06/24 05:07

14^F：→ yhliu: 能概括的. 統計上講究 "隨機樣本", 只有樣本隨機, 才能在各 06/24 05:09

15^F：→ yhliu: 種特性上模仿群體, 也才能達到 "大數法則" 描述的效果. 06/24 05:10

16^F：→ yhliu: 統計上和 ANN 是不同的, 資料取得不是無價的, 反而有時是很 06/24 05:12

17^F：→ yhliu: 昂貴的. 因此, 統計由早期的 "大樣本" 而轉變成現在的 "小 06/24 05:13

18^F：→ yhliu: 樣本". 也許有人說現在資訊量爆炸, 到處充塞了大數據. 沒鍺 06/24 05:15

19^F：→ yhliu: 所以現在也有專門大數據的統計, 它所著重的和現行小樣本統 06/24 05:16

20^F：→ yhliu: 計方法是兩回事, 它甚至不需要講求 "代表性". 但對於許多問 06/24 05:18

21^F：→ yhliu: 題, 大數據解決不了. 例如某種藥是否有效, 某藥廠製出的藥 06/24 05:20

22^F：→ yhliu: 是否同原廠藥 "等效", 哪種教學法較好? 商品廣告效果好不好 06/24 05:22

23^F：→ yhliu: 許許多多問題, 或者根本不容易取得大量具代表性的資料, 或 06/24 05:23

24^F：→ yhliu: 者成本(經費)所限只能取得有限資料, 不可能說: 多取些資料 06/24 05:25

25^F：→ yhliu: 就可以, 何必追求 "統計效率"? 何況這些因應特定問題而蒐集 06/24 05:27

26^F：→ yhliu: 的資料, 不只蒐集不易, 耗時耗財, 把它轉成可電腦處理讓計 06/24 05:29

27^F：→ yhliu: 算變得容易還要再耗費一些精力經費, 何況蒐集的資料還有各 06/24 05:31

28^F：→ yhliu: 種可能誤差偏誤來源因而限制了我們可取得的資料數. 所以, 06/24 05:32

29^F：→ yhliu: 不是一個 "大數法則" 能解決所有問題, 要不然統計也不會由 06/24 05:33

30^F：→ yhliu: 大樣本時代走向小樣本時代. 06/24 05:34

31^F：→ incessantgas: 這個解釋更加全面完整!! 06/24 18:30

32^F：→ incessantgas: 再次感謝 06/24 18:30

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

Statistics 板

Re: [討論] 神經網路和傳統回歸分析的共通性

熱門看板

贊助商連結