作者incessantgas (人生胜利组YA)
看板Statistics
标题Re: [讨论] 神经网路和传统回归分析的共通性
时间Wed Jun 24 02:36:01 2020
谢谢老师超级详细的解答!!
如果没会错意的话感觉老师的见解和我想的也些相似。现在许多model,例如提到的
logistic model或是其他regression model,有一个很重要的理论叫做大数法则,基於大
数法则可以得到一些重要的统计量(mean, variance或是其他),所以可以依此推导出可以
直接apply的公式,直接fit data可以快速有效率的得到所需的parameters。
ANN其实也是透过不断的trials来逼近理论的特性,虽然效率较差,但是现在的
computational power很强大所以不是太大问题。特别是有些data并没有特定的patern,
这时候也许ANN可以更显得有帮助,只是overfitting永远也是个需要随时提醒自己注意的
问题了。
※ 引述《incessantgas》之铭言:
: 在进行线性组合那个部分需要对parameters, w进行估计
: 这个部分和传统的回归模型非常类似
: 让我不禁好奇是否ANN透过不断iterate找寻最佳化w的过程
: 其实就是在创造一个拟合statistical distribution的过程?
: 如果是这样的话,那和regression model背後的逻辑就很接近了
: 各位高手对这样的见解看法如何?
: 若有误解请指教,谢谢
: ※ 编辑: incessantgas (71.58.82.199 美国), 06/23/2020 01:45:15
: 推 joshddd: 同问 06/23 07:46
: → yhliu: ANN 通常采用的是 logistic form, 而它的 "参数估计" 是直 06/23 08:32
: → yhliu: 接按特定公式计算. 它是一直以新的资料更新参数, 并不考虑 06/23 08:34
: → yhliu: 参数估计方法的 "最优性", 也不考虑模型的统计适切性. 06/23 08:36
: → yhliu: 但由於 input 一直在增加 (n→∞), 所以, 最终得到的预测 06/23 08:38
: → yhliu: 模型将趋近於设定模型与事实最接近的状态. 06/23 08:39
: → yhliu: 统计的 logistic regression model 操作上只有一组固定 n 06/23 08:40
: → yhliu: 的资料, 因此除了考虑模型的实务与统计适切性, 也考虑了估 06/23 08:42
: → yhliu: 计方法的最优性. 因为不是线性模型, 所以要得到最後的估计 06/23 08:44
: → yhliu: 或说是预测模型, 并没有可直接套用的一次计算式, 而是用迭 06/23 08:45
: → yhliu: 代逼近的方法. 06/23 08:46
: → yhliu: 上面所说的 "统计适切性" 指的是模型中对资料所来自群体机 06/23 08:48
: → yhliu: 率分布的假设, 资料变异(分散)相关的假设等. 实务适切性是 06/23 08:50
: → yhliu: 指模型与事实是否足够接近. 而 "最优性" 指的是估计方法产 06/23 08:53
: → yhliu: 生之估计结果与 "真实参数值" 之间误差 "最小". "真实参数 06/23 08:55
: → yhliu: 值就是该模型与真实状况最接近的状态所对应的模型参数值. 06/23 08:57
: → yhliu: 统计的 "最优" 考虑一个结果就是估计值与 "真实参数值" 最 06/23 08:59
: → yhliu: 接近 (相同 n), 或最快趋近 (n→∞). 但由於 ANN 面对的是 06/23 09:00
: → yhliu: n→∞, 对趋近最终值速度及前面的有限 n 并不注重, 所以只 06/23 09:02
: → yhliu: 是取一个合理、易算的参数估计方法, 而不像统计人员精打细 06/23 09:04
: → yhliu: 算地想用有限 n 笔资料得到最接近真实参数值的估计. 06/23 09:06
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 71.58.82.199 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1592937363.A.B7C.html
1F:→ yhliu: 大数法则是说: 资料数量足够时(样本数足够大, n→∞)样本足 06/24 04:45
2F:→ yhliu: 以代表群体. 以ANN来说, 就是愈来愈多的资料饙入, 配合误差 06/24 04:47
3F:→ yhliu: 反饙修正参数, 可以使最後模型达 "最接近" 事实的程度. 但 06/24 04:49
4F:→ yhliu: 这 "最接近" 仍有其限度, ANN 因为考虑了足够多的有效预测 06/24 04:51
5F:→ yhliu: 变量, 才能有高的预测率, 并非任意丢足够的资料就有足够的 06/24 04:52
6F:→ yhliu: 预测能力. 虽然不是很恰当的比喻, 但仍可类比: 比如事实是 06/24 04:54
7F:→ yhliu: Y 的变化需要以 X,Z,W 等用复杂的数学式描述, 设定的模型却 06/24 04:56
8F:→ yhliu: 是用 X 的直线函数 Y, 即使给一亿笔资料也无法得到真正接近 06/24 04:58
9F:→ yhliu: 事实的结果. 不过, 样本数足够大时是足过让 Y = a+bX "最接 06/24 04:59
10F:→ yhliu: 近" 地预测 Y. 还有一点是 "样本" 的代表性.如果 ANN 前期 06/24 05:01
11F:→ yhliu: 入的资料和後期特性上差很多, 即使前期投入再多资料, 对後 06/24 05:03
12F:→ yhliu: 期的预测准确度也没有帮助. 就好像统计上说样本有偏, 估计 06/24 05:05
13F:→ yhliu: 出来的结果也有偏. 所谓 "代表性" 不是简单一个 "平均" 所 06/24 05:07
14F:→ yhliu: 能概括的. 统计上讲究 "随机样本", 只有样本随机, 才能在各 06/24 05:09
15F:→ yhliu: 种特性上模仿群体, 也才能达到 "大数法则" 描述的效果. 06/24 05:10
16F:→ yhliu: 统计上和 ANN 是不同的, 资料取得不是无价的, 反而有时是很 06/24 05:12
17F:→ yhliu: 昂贵的. 因此, 统计由早期的 "大样本" 而转变成现在的 "小 06/24 05:13
18F:→ yhliu: 样本". 也许有人说现在资讯量爆炸, 到处充塞了大数据. 没锗 06/24 05:15
19F:→ yhliu: 所以现在也有专门大数据的统计, 它所着重的和现行小样本统 06/24 05:16
20F:→ yhliu: 计方法是两回事, 它甚至不需要讲求 "代表性". 但对於许多问 06/24 05:18
21F:→ yhliu: 题, 大数据解决不了. 例如某种药是否有效, 某药厂制出的药 06/24 05:20
22F:→ yhliu: 是否同原厂药 "等效", 哪种教学法较好? 商品广告效果好不好 06/24 05:22
23F:→ yhliu: 许许多多问题, 或者根本不容易取得大量具代表性的资料, 或 06/24 05:23
24F:→ yhliu: 者成本(经费)所限只能取得有限资料, 不可能说: 多取些资料 06/24 05:25
25F:→ yhliu: 就可以, 何必追求 "统计效率"? 何况这些因应特定问题而蒐集 06/24 05:27
26F:→ yhliu: 的资料, 不只蒐集不易, 耗时耗财, 把它转成可电脑处理让计 06/24 05:29
27F:→ yhliu: 算变得容易还要再耗费一些精力经费, 何况蒐集的资料还有各 06/24 05:31
28F:→ yhliu: 种可能误差偏误来源因而限制了我们可取得的资料数. 所以, 06/24 05:32
29F:→ yhliu: 不是一个 "大数法则" 能解决所有问题, 要不然统计也不会由 06/24 05:33
30F:→ yhliu: 大样本时代走向小样本时代. 06/24 05:34
31F:→ incessantgas: 这个解释更加全面完整!! 06/24 18:30
32F:→ incessantgas: 再次感谢 06/24 18:30