Re: [讨论] 神经网路和传统回归分析的共通性

时间Wed Jun 24 02:36:01 2020

谢谢老师超级详细的解答!! 如果没会错意的话感觉老师的见解和我想的也些相似。现在许多model，例如提到的 logistic model或是其他regression model，有一个很重要的理论叫做大数法则，基於大数法则可以得到一些重要的统计量(mean, variance或是其他)，所以可以依此推导出可以直接apply的公式，直接fit data可以快速有效率的得到所需的parameters。 ANN其实也是透过不断的trials来逼近理论的特性，虽然效率较差，但是现在的 computational power很强大所以不是太大问题。特别是有些data并没有特定的patern，这时候也许ANN可以更显得有帮助，只是overfitting永远也是个需要随时提醒自己注意的问题了。 ※ 引述《incessantgas》之铭言： : 在进行线性组合那个部分需要对parameters, w进行估计 : 这个部分和传统的回归模型非常类似 : 让我不禁好奇是否ANN透过不断iterate找寻最佳化w的过程 : 其实就是在创造一个拟合statistical distribution的过程? : 如果是这样的话，那和regression model背後的逻辑就很接近了 : 各位高手对这样的见解看法如何? : 若有误解请指教，谢谢 : ※ 编辑: incessantgas (71.58.82.199 美国), 06/23/2020 01:45:15 : 推 joshddd: 同问 06/23 07:46 : → yhliu: ANN 通常采用的是 logistic form, 而它的 "参数估计" 是直 06/23 08:32 : → yhliu: 接按特定公式计算. 它是一直以新的资料更新参数, 并不考虑 06/23 08:34 : → yhliu: 参数估计方法的 "最优性", 也不考虑模型的统计适切性. 06/23 08:36 : → yhliu: 但由於 input 一直在增加 (n→∞), 所以, 最终得到的预测 06/23 08:38 : → yhliu: 模型将趋近於设定模型与事实最接近的状态. 06/23 08:39 : → yhliu: 统计的 logistic regression model 操作上只有一组固定 n 06/23 08:40 : → yhliu: 的资料, 因此除了考虑模型的实务与统计适切性, 也考虑了估 06/23 08:42 : → yhliu: 计方法的最优性. 因为不是线性模型, 所以要得到最後的估计 06/23 08:44 : → yhliu: 或说是预测模型, 并没有可直接套用的一次计算式, 而是用迭 06/23 08:45 : → yhliu: 代逼近的方法. 06/23 08:46 : → yhliu: 上面所说的 "统计适切性" 指的是模型中对资料所来自群体机 06/23 08:48 : → yhliu: 率分布的假设, 资料变异(分散)相关的假设等. 实务适切性是 06/23 08:50 : → yhliu: 指模型与事实是否足够接近. 而 "最优性" 指的是估计方法产 06/23 08:53 : → yhliu: 生之估计结果与 "真实参数值" 之间误差 "最小". "真实参数 06/23 08:55 : → yhliu: 值就是该模型与真实状况最接近的状态所对应的模型参数值. 06/23 08:57 : → yhliu: 统计的 "最优" 考虑一个结果就是估计值与 "真实参数值" 最 06/23 08:59 : → yhliu: 接近 (相同 n), 或最快趋近 (n→∞). 但由於 ANN 面对的是 06/23 09:00 : → yhliu: n→∞, 对趋近最终值速度及前面的有限 n 并不注重, 所以只 06/23 09:02 : → yhliu: 是取一个合理、易算的参数估计方法, 而不像统计人员精打细 06/23 09:04 : → yhliu: 算地想用有限 n 笔资料得到最接近真实参数值的估计. 06/23 09:06 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 71.58.82.199 (美国) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1592937363.A.B7C.html

1^F：→ yhliu: 大数法则是说: 资料数量足够时(样本数足够大, n→∞)样本足 06/24 04:45

2^F：→ yhliu: 以代表群体. 以ANN来说, 就是愈来愈多的资料饙入, 配合误差 06/24 04:47

3^F：→ yhliu: 反饙修正参数, 可以使最後模型达 "最接近" 事实的程度. 但 06/24 04:49

4^F：→ yhliu: 这 "最接近" 仍有其限度, ANN 因为考虑了足够多的有效预测 06/24 04:51

5^F：→ yhliu: 变量, 才能有高的预测率, 并非任意丢足够的资料就有足够的 06/24 04:52

6^F：→ yhliu: 预测能力. 虽然不是很恰当的比喻, 但仍可类比: 比如事实是 06/24 04:54

7^F：→ yhliu: Y 的变化需要以 X,Z,W 等用复杂的数学式描述, 设定的模型却 06/24 04:56

8^F：→ yhliu: 是用 X 的直线函数 Y, 即使给一亿笔资料也无法得到真正接近 06/24 04:58

9^F：→ yhliu: 事实的结果. 不过, 样本数足够大时是足过让 Y = a+bX "最接 06/24 04:59

10^F：→ yhliu: 近" 地预测 Y. 还有一点是 "样本" 的代表性.如果 ANN 前期 06/24 05:01

11^F：→ yhliu: 入的资料和後期特性上差很多, 即使前期投入再多资料, 对後 06/24 05:03

12^F：→ yhliu: 期的预测准确度也没有帮助. 就好像统计上说样本有偏, 估计 06/24 05:05

13^F：→ yhliu: 出来的结果也有偏. 所谓 "代表性" 不是简单一个 "平均" 所 06/24 05:07

14^F：→ yhliu: 能概括的. 统计上讲究 "随机样本", 只有样本随机, 才能在各 06/24 05:09

15^F：→ yhliu: 种特性上模仿群体, 也才能达到 "大数法则" 描述的效果. 06/24 05:10

16^F：→ yhliu: 统计上和 ANN 是不同的, 资料取得不是无价的, 反而有时是很 06/24 05:12

17^F：→ yhliu: 昂贵的. 因此, 统计由早期的 "大样本" 而转变成现在的 "小 06/24 05:13

18^F：→ yhliu: 样本". 也许有人说现在资讯量爆炸, 到处充塞了大数据. 没锗 06/24 05:15

19^F：→ yhliu: 所以现在也有专门大数据的统计, 它所着重的和现行小样本统 06/24 05:16

20^F：→ yhliu: 计方法是两回事, 它甚至不需要讲求 "代表性". 但对於许多问 06/24 05:18

21^F：→ yhliu: 题, 大数据解决不了. 例如某种药是否有效, 某药厂制出的药 06/24 05:20

22^F：→ yhliu: 是否同原厂药 "等效", 哪种教学法较好? 商品广告效果好不好 06/24 05:22

23^F：→ yhliu: 许许多多问题, 或者根本不容易取得大量具代表性的资料, 或 06/24 05:23

24^F：→ yhliu: 者成本(经费)所限只能取得有限资料, 不可能说: 多取些资料 06/24 05:25

25^F：→ yhliu: 就可以, 何必追求 "统计效率"? 何况这些因应特定问题而蒐集 06/24 05:27

26^F：→ yhliu: 的资料, 不只蒐集不易, 耗时耗财, 把它转成可电脑处理让计 06/24 05:29

27^F：→ yhliu: 算变得容易还要再耗费一些精力经费, 何况蒐集的资料还有各 06/24 05:31

28^F：→ yhliu: 种可能误差偏误来源因而限制了我们可取得的资料数. 所以, 06/24 05:32

29^F：→ yhliu: 不是一个 "大数法则" 能解决所有问题, 要不然统计也不会由 06/24 05:33

30^F：→ yhliu: 大样本时代走向小样本时代. 06/24 05:34

31^F：→ incessantgas: 这个解释更加全面完整!! 06/24 18:30

32^F：→ incessantgas: 再次感谢 06/24 18:30

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Statistics 板

Re: [讨论] 神经网路和传统回归分析的共通性

热门看板

赞助商连结