作者jacobcan118 (jacobcan118)
看板Statistics
标题[问题] 如何从随机森林结算baseline, conditional probability
时间Sat Aug 26 04:58:22 2017
[1;32m如果是跟统计软体有关请重发文章,使用程式做为分类。
统计软体,如SPSS, AMOS, SAS, R, STATA, Eviews,请都使用程式做为分类
请详述问题内容,以利板友帮忙解答,过短文章依板规处置,请注意。
为避免版面混乱,请勿手动置底问题,擅用E做档案编辑
请问一下当我用随机森林去对我数据作分类模型, 分类後用混淆矩阵confusion matrix去得到准确率和误分类率, 也用了ROC曲线去算AUC值, 将我要如何去算conditional probobility 和我的baseline是多少?
基本上我是用python sklearn 里RandomForestClassifier, accuracy_score, confusion_matrix
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 209.90.32.81
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1503694704.A.3C2.html
1F:→ f496328mm: 你 baseline 指的是? 基准线? 08/26 08:02
2F:→ f496328mm: 如果是的话, 那就是你的 AUC 值, 或是其他的evaluation 08/26 08:03
3F:→ f496328mm: 然後再去改进你的 model, 最後可以知道 08/26 08:03
4F:→ f496328mm: 你进步多少, 跟 baseline 比 08/26 08:04
5F:→ jacobcan118: 我拿Random forest用auc roc算出来 值是.08975多欸 08/26 13:05
6F:→ jacobcan118: 有什麽方法可以改进Random forest的model吗? 设不同 08/26 13:06
7F:→ jacobcan118: 的n_estimator? 08/26 13:06
8F:推 f496328mm: 改进有很多方法,比较重要的是feature工程 08/26 22:06
9F:→ f496328mm: 简单讲就是,由原始变数,去额外衍生制造新变数,可能 08/26 22:08
10F:→ f496328mm: 会提高准确率 08/26 22:08
11F:→ f496328mm: 话说你连auc不到0.1,这???这很烂的结果吧 08/26 22:09
12F:→ jacobcan118: 不好意思. 是0.8975. feature工程意思是只选不同变数 08/26 22:15
13F:推 recorriendo: AUC=0.5最烂 (2 classes的情况) 愈大或愈小都愈好 08/27 01:23
14F:推 f496328mm: 只选不同变数,你是指variable selection吗?那是其中 08/27 04:03
15F:→ f496328mm: 一部分,你是可以额外制造变数的,举个简单的例子,变 08/27 04:04
16F:→ f496328mm: 数与目标,是非线性关系,所以变数取平方,变成新变数 08/27 04:04
17F:推 f496328mm: 不过平方只是一种,重点还是要看问题,你也可以画画图 08/27 04:05
18F:→ f496328mm: 看变数之间的关系 08/27 04:05
19F:→ f496328mm: 另外你的auc,应该是指testing吧?因为一般的RF很容易o 08/27 04:06
20F:→ f496328mm: verfitting 08/27 04:06