作者Nexus5566 (Nexus5566)
看板Database
标题[讨论] Data mining 资料缩减问题
时间Thu Aug 27 18:04:40 2015
不好意思
因为找不到资料探勘的专版,所以在此询问
如果不适合烦请告知,我会删文,谢谢
-----
目前是资料探勘的新手,想请问如果目前有一个约10万笔的资料集,共10个属性
但有许多实例(instances)之间属性值相同(例如a实例与b实例前三重要的属性值皆相同)
请问这种情况需要删除其中一笔资料,以免正确分类的机率过於乐观吗
还是需要在什麽时候才进行资料缩减呢(像是所有属性值皆重复)
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.142.63.2
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Database/M.1440669882.A.9E9.html
1F:推 evilove: 可以到统计版问 08/29 14:58
2F:推 a926: 你要做降维 有一些方法可以做。像是PCA你可以找看看降维方法 08/30 18:11
3F:推 aaa7513231: 做共变异数分析 把没用的属性拿掉 08/30 23:29
4F:→ aaa7513231: 才10万笔资料 计算上不会有问题吧? 08/30 23:29
5F:→ aaa7513231: 去买书看吧 方法很多种要看你资料属性决定 08/30 23:31