作者thomasflee (Thomas)
看板DataScience
标题[问题] 随机森林模型问题请益
时间Sun Jun 28 13:46:48 2020
各位大大好
小弟是自学的新手,今天研究python sklearn的随机森林时,使用jupyter 练习iris的资
料范例,但产生以下的疑问,想请教板上大大的指点:
1. 随机森林模型accuracy的选择:
随机森林因为抽样的关系,每次跑出的accuracy数值都会不相同(ex., 0.91, 0.95, 0.9
8),一般都是选择数值最高时产生的模型吗?
2. 承第1点,训练好的模型如何存取?
当我有新的资料进来时,我必须每次jupyter重跑一次所有程序(建立模型clf),最後将新
样本带入clf跑出预测吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.238.59.57 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1593323210.A.3A1.html
1F:推 sxy67230: 1. 你可以选择最好的模型或是把所有随机抽样训练的模 06/28 16:50
2F:→ sxy67230: 型做ensemble 06/28 16:50
3F:→ sxy67230: 2.用joblib或是pickle freeze整个模块参数做保存,一般 06/28 16:50
4F:→ sxy67230: 而已joblib的performance比较好 06/28 16:50
5F:→ thomasflee: 感谢大大的指点 06/28 16:53
6F:→ Pieteacher: control random state 06/28 18:31
8F:→ seasa2016: 请教s大,joblib或是pickle 应该都只是存参数的方法吧 06/29 18:07
9F:→ seasa2016: 。如果参数一样的话为什麽他的结果会有差啊 06/29 18:07
10F:推 sxy67230: joblib有针对numpy array做数据缓存跟压缩的优化,储存 06/29 19:07
11F:→ sxy67230: 方式不太一样,pickle是把整个类对象序列化後保存,在 06/29 19:07
12F:→ sxy67230: 读取跟储存上loading会比较久,而且如果缓存序列太大会 06/29 19:07
13F:→ sxy67230: 有memory error的问题,相反joblib则有对此优化。如果你 06/29 19:07
14F:→ sxy67230: 是要用joblib存,pickle读基本上数据储存方法不同是没 06/29 19:08
15F:→ sxy67230: 办法这样做的,不晓得有没有get到你的问题 06/29 19:08
16F:→ seasa2016: 了解,感谢您的回答 06/29 20:09
17F:→ loser113: 1.test分数高 2.roc去选 3.看你分类需求 06/30 17:47
18F:推 aidansky0989: 检查一下你的rf,应该是过拟合 06/30 21:48
19F:→ aidansky0989: 通常是randomsearchcv找出best_est(最佳模型).pre 06/30 21:51
20F:→ aidansky0989: dict一下代入特徵 06/30 21:51
21F:推 aidansky0989: 精度召回率都是用模型预测的y_pred比对label来判断 06/30 21:57
22F:→ aidansky0989: 你的模型表现好不好,rf非常容易过拟合,需要做好预 06/30 21:57
23F:→ aidansky0989: 剪枝,这点sklearn可以设置 06/30 21:57