作者j6g0 (無名氏)
看板Statistics
標題[問題] 高維資料分類問題
時間Wed Feb 26 00:42:18 2014
各位大大好
小弟現在在研究一個二元分類問題,正常與不正常
受試者樣本數是118,原始資料維度上萬
我的執行步驟大約分成三個
第一步:使用MPCA降維,降維之後的維度是 110 ,累積解釋變異比例有80%
所以每筆資料有110個變數(連續)
第二步:由於110個變數仍太多,所以進行變數塞選
先將118筆資料分成訓練集(80筆)與測試集(38筆)
這裡以訓練集進行變數塞選,使用Wilks Lambda Statistic來選取
在α=0.05下,會選出約10個顯著變數(因訓練集為隨機挑選,所以每次挑選
結果都不太一樣)
第三步:以第二步所挑出的變數對測試集進行分類,分類器有LDA,QDA,SVM(support vector
machine),重複第二步與第三步多次後取判對率的平均值。
結果不論是哪個分類器,結果都只有50%~60%,顯示對於未知的測試集,分類效果不好
想請問各位大大是不是有哪些地方需要改善還是有問題?
第一次發問,有少打什麼的還請多多指教
謝謝大家
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 219.69.111.54
1F:→ andrew43:就算不降維,判別率最高能多少?不理想的話降維幫助有限 02/26 00:50
2F:→ j6g0:因為原始資料維度是16384,所以想說先降維才能處理 02/26 01:26
3F:→ andrew43:我是指說不定理想的判別率本來就可能不高。 02/26 03:31
4F:→ andrew43:所以降維後50-60%的正確率可能是極限了。 02/26 03:32
5F:→ andrew43:我是指,說不定降維前的判別率本來就不高。 02/26 03:32
6F:→ andrew43:所以降維後50-60%的正確率可能是極限了。 02/26 03:33
7F:→ andrew43:那你又何以確定你可以有更好的降維方式? 02/26 03:33
8F:→ j6g0:恩~謝謝~看來要換個資料看看 02/26 18:03