作者jacobcan118 (jacobcan118)
看板Statistics
標題[問題] 如何從隨機森林結算baseline, conditional probability
時間Sat Aug 26 04:58:22 2017
[1;32m如果是跟統計軟體有關請重發文章,使用程式做為分類。
統計軟體,如SPSS, AMOS, SAS, R, STATA, Eviews,請都使用程式做為分類
請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。
為避免版面混亂,請勿手動置底問題,擅用E做檔案編輯
請問一下當我用隨機森林去對我數據作分類模型, 分類後用混淆矩陣confusion matrix去得到準確率和誤分類率, 也用了ROC曲線去算AUC值, 將我要如何去算conditional probobility 和我的baseline是多少?
基本上我是用python sklearn 裡RandomForestClassifier, accuracy_score, confusion_matrix
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 209.90.32.81
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1503694704.A.3C2.html
1F:→ f496328mm: 你 baseline 指的是? 基準線? 08/26 08:02
2F:→ f496328mm: 如果是的話, 那就是你的 AUC 值, 或是其他的evaluation 08/26 08:03
3F:→ f496328mm: 然後再去改進你的 model, 最後可以知道 08/26 08:03
4F:→ f496328mm: 你進步多少, 跟 baseline 比 08/26 08:04
5F:→ jacobcan118: 我拿Random forest用auc roc算出來 值是.08975多欸 08/26 13:05
6F:→ jacobcan118: 有什麼方法可以改進Random forest的model嗎? 設不同 08/26 13:06
7F:→ jacobcan118: 的n_estimator? 08/26 13:06
8F:推 f496328mm: 改進有很多方法,比較重要的是feature工程 08/26 22:06
9F:→ f496328mm: 簡單講就是,由原始變數,去額外衍生製造新變數,可能 08/26 22:08
10F:→ f496328mm: 會提高準確率 08/26 22:08
11F:→ f496328mm: 話說你連auc不到0.1,這???這很爛的結果吧 08/26 22:09
12F:→ jacobcan118: 不好意思. 是0.8975. feature工程意思是只選不同變數 08/26 22:15
13F:推 recorriendo: AUC=0.5最爛 (2 classes的情況) 愈大或愈小都愈好 08/27 01:23
14F:推 f496328mm: 只選不同變數,你是指variable selection嗎?那是其中 08/27 04:03
15F:→ f496328mm: 一部分,你是可以額外製造變數的,舉個簡單的例子,變 08/27 04:04
16F:→ f496328mm: 數與目標,是非線性關係,所以變數取平方,變成新變數 08/27 04:04
17F:推 f496328mm: 不過平方只是一種,重點還是要看問題,你也可以畫畫圖 08/27 04:05
18F:→ f496328mm: 看變數之間的關係 08/27 04:05
19F:→ f496328mm: 另外你的auc,應該是指testing吧?因為一般的RF很容易o 08/27 04:06
20F:→ f496328mm: verfitting 08/27 04:06