作者yuhow (擦肩而過的歲月)
看板Statistics
標題[問題] 決策樹的一個小疑問
時間Mon Jul 18 23:15:05 2016
大家好,
我想請問一些關於決策樹的小疑問,
假如現在我有一筆資料,
例如紀錄了100人的血型 身高 體重 收入 等等10個屬性值,
那如果今天我想要用血型來當作我的information gain 或是 gini gain的計算目標,
以此為依據來產生決策樹,
是否會出現有屬性被重複拿來當作分支的的條件篩選?
其實我是在學習使用 python的sklearn時候,
看到他裡面提供的範例如:
http://scikit-learn.org/stable/modules/tree.html#classification
他得到的決策樹中,可以看到有些屬性被重複拿來使用,
這樣是可行的囉?
如果用語不太精確的話請見諒.
--
感謝幫忙:)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.219.238
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1468854907.A.D11.html
1F:推 xdd1524: 屬性的型態是連續型的話 常常都會重複 07/19 13:25
2F:推 x1234567: 決策樹的特性是一次只用一個變數將樣本分割(分支),因 07/19 21:49
3F:→ x1234567: 分支內樣本改變了,是有可能再選到用過的變數,不過建 07/19 21:49
4F:→ x1234567: 議要看validate 的預測能力有沒有掉很多 07/19 21:49
5F:→ yuhow: 想請問要如何看'validate'的預測能力? 我不是很明白這句 07/19 22:11
6F:→ andrew43: 例如把資料分成訓練集和驗證集幾次,即交叉驗證 07/20 03:16
7F:→ x1234567: 因目的是未來套用的準確度高,所以用非訓練樣本來看看這 07/20 09:08
8F:→ x1234567: 個現象是不是還存在,避免過度訓練 07/20 09:08
9F:→ yuhow: 喔喔! 那我有點懂了 感謝大家 :D 07/20 21:43