作者passaway (逼逼)
看板Statistics
標題Re: [問題] 複選題可否做迴歸?
時間Fri Oct 4 21:34:11 2013
→ yhliu:你知道什麼是 PLS 嗎? 09/29 13:56
→ passaway:我不會說自己很懂,但pls的專書也看過一本,基本概念是有 09/29 16:30
→ passaway:底的。所以我想請教你這樣問的用意是什麼? 09/29 16:31
→ yhliu:PLS 是兩組(多)變量之間通過隱變數建立迴歸關係的方法之一. 09/29 23:29
→ yhliu:多選題就是多變量資料. 除卻 0-1 型反應資料不建議直接用線 09/29 23:30
→ yhliu:性模型之外, 試想一組多變量資料與一堆解釋變項, 用 PLS 來 09/29 23:31
→ yhliu:建立關係, 卻被你直接以 "沒有人會把複選題在丟回歸..." 給 09/29 23:31
→ yhliu:否決? 如果否決的理由是資料屬 0-1 反應而非計量型反應, 我 09/29 23:33
1.我還沒聽過「複選題是多變量資料」這種說法
2.我會這麼評斷的另一個原因是回歸到複選題的目的,本來就不是做迴歸模型,而是
敘述統計般瞭解分布與意見。也因此複選題的根本目的,所以才沒人把他丟回歸分析。
現在複選題你不拿去不做敘述統計,反而拿去做迴歸,我個人是覺得很不可思議。
3.0-1的資料不只不適合做線性模式,也不適合做主成分分析(pls的第一步驟)
--
「只有當我認識我自己時,我才是精神。
『認識自己』這個在德爾菲智慧神廟上的箴言,
表達了精神本性的絕對命令。」---黑格爾,《哲學史講錄》
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.195.216.81
※ 編輯: passaway 來自: 123.195.216.81 (10/04 21:42)
1F:→ coldwind0912:多(複)選題是多變量資料這點 我不認為y大說的有錯 10/04 23:12
2F:→ coldwind0912:基本上用pls處理多選題型 實務上也不算罕見 10/04 23:14
3F:→ coldwind0912:純粹是coding的型態和解釋的問題而已 10/04 23:15
4F:→ coldwind0912:二元變項在線性模型 我認為不是錯 只是太粗糙的作法 10/04 23:17
5F:→ coldwind0912:至於二元變項如何進行PCA 這個PAPER也有人在討論 10/04 23:18
6F:→ passaway:如果要說複選題是多變量,那我也勉強沒意見。至於pls處理 10/05 14:34
7F:→ passaway:複選題的實務有無PAPER可參考?因為我沒看過這類文章。 10/05 14:35
8F:→ passaway:至於二元變項做pca,就我了解至少一般性的pca是無法做到 10/05 14:36
9F:→ KirinGuess:"複選題的目的是敘述統計般瞭解分布與意見"? 什麼意思? 10/06 15:46
10F:→ yhliu:PCA 只不過是把資料做個直交變換. 直交變換是什麼, 不過是 10/10 11:47
11F:→ yhliu:相當於座標軸旋轉與反向. 我倒不覺得二元變項有何不可套用的 10/10 11:48
12F:→ yhliu:沒有人, 或者說沒有一個研究人員會滿足於 "只是做敘述統計". 10/10 11:49
13F:→ yhliu:再說, 你認定的 "敘述統計" 跟我認為的不同 --- 統計入門教 10/10 11:50
14F:→ yhliu:本上告訴我們敘述統計是什麼? 就是只就資料說話, 而不做什麼 10/10 11:51
15F:→ yhliu:"統計推論", 也就是沒有 "推論到群體" 的程序. 就這點, 關鍵 10/10 11:53
16F:→ yhliu:在資料是否能看成是某群體的隨機樣本. 至於你所界定的 "敘述 10/10 11:54
17F:→ yhliu:統計" 指平均數、標準差、比例或比率等等基本描述統計量, 這 10/10 11:55
18F:→ yhliu:當然可做, 如果這些就能解決所要研究的問題, 是沒有必要用什 10/10 11:56
19F:→ yhliu:麼複雜的統計程序. 可惜, 研究者通常想要更深入了解多個變項 10/10 11:57
20F:→ yhliu:之間的關係. 即使根據解釋變項做交叉分類來看各比例的變化, 10/10 11:58
21F:→ yhliu:一則資料數很快被分割至數量太少而使那些基本統計量失去意義 10/10 11:59
22F:→ yhliu:二則複雜分類下的基本統計量差異型態不好觀察了解. 10/10 12:00
23F:→ yhliu:就複選題而言, 要同意觀察多個比例,甚至選項間同時選的比例, 10/10 12:01
24F:→ yhliu:其困難程度更遠超過單選題或簡單問項. 10/10 12:01
25F:→ yhliu:二元反應變數套用線性模型的困難是什麼? 絕對不是二元反應一 10/10 12:02
26F:→ yhliu:定要採 logistic model 之類的, 而是二元反應之反應值及其背 10/10 12:03
27F:→ yhliu:後的 "成功率p" 是有界限的, 而線性反應模型是無界限的, 因 10/10 12:04
28F:→ yhliu:而有 logit 變換, probit 變換, 把有界變成無界. 至於找些理 10/10 12:05
29F:→ yhliu:由來說明如 logit 變換的合理性, 固然可能適用某些情況, 卻 10/10 12:06
30F:→ yhliu:難說放諸四海而皆準. 10/10 12:06
31F:→ yhliu:統計資料分析, 沒有 "一定要如何如何" 的道理. 真正的模型只 10/10 12:07
32F:→ yhliu:有天知道, 真正的參數也只有天曉得. 統計人員不過是做些合理 10/10 12:08
33F:→ yhliu:的猜測, 希望抓住資料透露的訊息梗概罷了! 在沒有更好的方法 10/10 12:09
34F:→ yhliu:之前, 雖有瑕疵的方法也不妨一用. 10/10 12:10