作者yuhow (擦肩而过的岁月)
看板Statistics
标题[问题] 决策树的一个小疑问
时间Mon Jul 18 23:15:05 2016
大家好,
我想请问一些关於决策树的小疑问,
假如现在我有一笔资料,
例如纪录了100人的血型 身高 体重 收入 等等10个属性值,
那如果今天我想要用血型来当作我的information gain 或是 gini gain的计算目标,
以此为依据来产生决策树,
是否会出现有属性被重复拿来当作分支的的条件筛选?
其实我是在学习使用 python的sklearn时候,
看到他里面提供的范例如:
http://scikit-learn.org/stable/modules/tree.html#classification
他得到的决策树中,可以看到有些属性被重复拿来使用,
这样是可行的罗?
如果用语不太精确的话请见谅.
--
感谢帮忙:)
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.176.219.238
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1468854907.A.D11.html
1F:推 xdd1524: 属性的型态是连续型的话 常常都会重复 07/19 13:25
2F:推 x1234567: 决策树的特性是一次只用一个变数将样本分割(分支),因 07/19 21:49
3F:→ x1234567: 分支内样本改变了,是有可能再选到用过的变数,不过建 07/19 21:49
4F:→ x1234567: 议要看validate 的预测能力有没有掉很多 07/19 21:49
5F:→ yuhow: 想请问要如何看'validate'的预测能力? 我不是很明白这句 07/19 22:11
6F:→ andrew43: 例如把资料分成训练集和验证集几次,即交叉验证 07/20 03:16
7F:→ x1234567: 因目的是未来套用的准确度高,所以用非训练样本来看看这 07/20 09:08
8F:→ x1234567: 个现象是不是还存在,避免过度训练 07/20 09:08
9F:→ yuhow: 喔喔! 那我有点懂了 感谢大家 :D 07/20 21:43