作者saltlake (SaltLake)
看板Statistics
标题[问题] 试验的分组
时间Thu Oct 26 18:23:30 2017
在文献看到 想要透过许多既有数据(x,y)去决定一个
能够描述这个数据级的未知模型的参数
首先先把数据级分组 例如分成训练组(training group)
和测试组(testing group) 其中训练组的数据即是从原数据
集随机取例如 80% 的数据 剩下的 20% 数据则放到测试组
然後利用训练组的数据集 透过把 y 的量测值和模型的
预测值做最小方差的方式决定未知模型的参数
接下来利用测试组的数据集 计算 y 的量测值和模型的
预测值之均方值 看均方值是否小於预先指定的值 倘小於
则接受模型
请问这样做就能确定所建立模型的可靠度的原理何在?
怎样决定训练组和测试组所含原数据组的比例才适当?
又如何决定测试组的允收均方差值?
另外 似乎还有把原数据集分成三组的 训练组 测试组
和确认组(validation) 但不知最後这确认组和测试组有何
差异? 或者说要对最後的确认组做甚麽运作
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 220.136.210.204
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1509013413.A.B87.html
1F:→ celestialgod: 训练测试资料比例因人而异,没有比较适当的 10/26 19:06
2F:→ celestialgod: 2:8到8:2 我都有看到过 10/26 19:06
4F:→ celestialgod: 建立测试组是为了避免overfiting,看模型的可靠度 10/26 19:09
5F:→ andrew43: 阀值的选择经常是经验,或是直接比较不同的建模方法。 10/27 17:29