作者j6g0 (无名氏)
看板Statistics
标题[问题] 高维资料分类问题
时间Wed Feb 26 00:42:18 2014
各位大大好
小弟现在在研究一个二元分类问题,正常与不正常
受试者样本数是118,原始资料维度上万
我的执行步骤大约分成三个
第一步:使用MPCA降维,降维之後的维度是 110 ,累积解释变异比例有80%
所以每笔资料有110个变数(连续)
第二步:由於110个变数仍太多,所以进行变数塞选
先将118笔资料分成训练集(80笔)与测试集(38笔)
这里以训练集进行变数塞选,使用Wilks Lambda Statistic来选取
在α=0.05下,会选出约10个显着变数(因训练集为随机挑选,所以每次挑选
结果都不太一样)
第三步:以第二步所挑出的变数对测试集进行分类,分类器有LDA,QDA,SVM(support vector
machine),重复第二步与第三步多次後取判对率的平均值。
结果不论是哪个分类器,结果都只有50%~60%,显示对於未知的测试集,分类效果不好
想请问各位大大是不是有哪些地方需要改善还是有问题?
第一次发问,有少打什麽的还请多多指教
谢谢大家
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 219.69.111.54
1F:→ andrew43:就算不降维,判别率最高能多少?不理想的话降维帮助有限 02/26 00:50
2F:→ j6g0:因为原始资料维度是16384,所以想说先降维才能处理 02/26 01:26
3F:→ andrew43:我是指说不定理想的判别率本来就可能不高。 02/26 03:31
4F:→ andrew43:所以降维後50-60%的正确率可能是极限了。 02/26 03:32
5F:→ andrew43:我是指,说不定降维前的判别率本来就不高。 02/26 03:32
6F:→ andrew43:所以降维後50-60%的正确率可能是极限了。 02/26 03:33
7F:→ andrew43:那你又何以确定你可以有更好的降维方式? 02/26 03:33
8F:→ j6g0:恩~谢谢~看来要换个资料看看 02/26 18:03