作者shirley7483 (Shirley)
看板Statistics
標題[程式] R mlogit的迴歸模型解讀
時間Wed Jun 7 02:42:32 2017
[軟體程式類別]: R mlogit package
[程式問題]: 迴歸模型的解讀
[軟體熟悉度]: 新手,曾使用過R但沒有很熟悉
[問題敘述]:
上篇已有詢問SPSS使用logistic regression的問題(實在很感謝各位!)
但因為一些原因,也需要使用R來做做看....
使用的是mlogit這個套件,相關說明文件也有提到可用於discrete choice model的分析
有三大問題想請教各位:
1. mlogit中的公式為 H1~part1 | part2 | part3
想要請教跑出來的模型中,放在part1、part2、part3的變數分別該如何解讀呢?
曾看過的說明文件中,自變數大部分都是連續變數,但我的自變數都是類別或區間變數,
所以有點無法理解到底該如何解讀才好QAQ
舉例:跑出來的模型如圖
http://imgur.com/GIfGuMa
以下我試著照我微薄的理解來解讀,想請各位幫忙指正
(我對logistic regression在解讀上的理解為【當自變項增加一個單位,應變項A相對於
應變項C的機率會增加幾倍】,其中應變項C為參照)
* part1中的review解讀成:
若有讀商品的評論(從0~1增加一個單位表示從不讀到有讀),則購買該商品(?)的機率增加
這邊的應變數不太知道到底是什麼 @"@
理論上來說應該是【購買LowJ、HighJ、LowU、HighU哪一個商品】,但是從資料結構來看
,又很像是【是否購買】......
* part2中的regulatory_focus解讀成:
相較於商品HighJ(參照),在情境從0變成1(增加一單位)的情況下,購買HighU(冒號前面的
那個商品名稱)的機率增加
* part3中的review解讀成:
相較於商品HighJ,若有讀商品的評論,則購買HighU的機率降低
備註:
mlogit的dataset採用long format:
http://imgur.com/3ZPNYNT
參考自mlogit的相關文件:Viton, P.A.(2012).Discrete-Choice Logit Models With R.
2. 承上題,最後模型寫出來的迴歸方程式會是三條還是一條呢?
因為看到有三個截距,所以在想是不是會寫成三條,但是放在part1中的review又只有
一個,如果寫成三條迴歸方程式的話,不知道該放進哪一條好
3. 發現三個截距都是顯著的,之前看論文都沒有看過顯著的截距 >"<
google看到有人說可以不用管他,但還是想瞭解一下截距顯著或不顯著代表什麼意思?
會對整個模型的解讀有影響嗎?
問題描述得好像有點長,如果有缺任何資料還請各位提醒,我會盡速補上的!
再懇請各位不吝指教了,感謝 m(_ _)m
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.150.79.175
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1496774555.A.15E.html
※ 編輯: shirley7483 (118.150.79.175), 06/07/2017 03:00:38
1F:→ andrew43: 有先仔細看完 mFormula 這個function的說明了嗎? 06/07 08:10
2F:→ andrew43: 會有三條是因為有四類outcome 06/07 08:32
3F:→ andrew43: Intercept的解讀和二元邏吉斯一樣。留著但檢驗結果不一 06/07 08:34
4F:→ andrew43: 定是你關心的。 06/07 08:34
5F:→ andrew43: 簡單就是當所有自變數是0時事件發生的log odd 06/07 08:37
6F:→ andrew43: 好幾個問題都是解讀有關。要不要先做一份最單純簡單的 06/07 11:07
7F:→ andrew43: 多項式羅吉斯回歸範例練習怎麼解讀? 06/07 11:07
感謝andrew43對intercept和迴歸方程式的說明!
仔細再看過mFormula的說明、google多項式羅吉斯迴歸後,重新修正解讀如下,
如果還有錯誤,再麻煩各位給予一些提示
另外,我發現通常一個變數不會同時放在part1和part3,所以重新上傳一個新模型
http://imgur.com/X65kWUc
對上述新模型,放在part1的appname,參考conditional logit後解讀為:
相較於appname1,若appname為appname4,購買(任意)商品的log odds降低0.5
放在part2的regulatory_focus,參考一般的multinomial logit,原先的解讀應該沒錯,
可更精準寫成:若regulatory_focus從情境0變成情境1,相較於HighJ,選擇HighU的
log odds增加0.14
(在這邊先假設有顯著,只是單純解讀)
目前還沒有找到對part3中變數的解讀的例子,說明文件中寫到coefficients differ
across alternatives,有點像是看自變數對個別的影響,因此解讀為:
和沒看評論相比,若有看評論(不限定哪個商品的評論),購買HighJ的log odds增加1.6
※ 編輯: shirley7483 (111.240.93.76), 06/07/2017 22:24:37
8F:→ andrew43: 我猜你用不到part3…我有空時會細看你的回應。 06/08 00:24
9F:→ andrew43: appname你放在part1要有一些前題,因為它的係數是共享的 06/08 00:29
10F:→ andrew43: 這可能需要檢查一下appname若放在part2的結果是否很不同 06/08 00:30
11F:→ andrew43: 你目前解讀我看來正確,看來很接近終點了。 06/08 00:31
12F:→ andrew43: 更正:part3的解釋我不確定是否正確,我也沒碰過這種例子 06/08 00:37
13F:→ andrew43: 另外不確定是否已解決「都選同商品但review量不同」一事 06/08 00:46
14F:→ andrew43: 可能要細看該package如何權權衡受測者ID內的四種反應。 06/08 00:47
針對review量不同,還沒有找到適當的方法,感謝提醒可以往package中找尋線索!
說明文件中提到alternative specific variables可以放在part1或part3
如果放在part1是想瞭解對整體(所有應變數)的影響力,
放在part3可以瞭解對個別的影響
(類似part2中變數會interact with estimable alternative-specific dummys的感覺,
只是part2會放的變數為隨respondent而變動的變數(如背景變項),而part3可以放會依商品
選項而變動的變數)
依照上述的理解,因為想細分瞭解影響力,所以可能也會使用到part3
但不確定解讀是以下A、B哪一種:
A 和沒看評論相比,若有看評論(不限定哪個商品的評論),購買HighJ的log odds增加1.6
B 和沒看評論相比,若有看HighJ的評論,購買HighJ的log odds增加
另外也蠻好奇寫成方程式的話,原本當作參照組,但放在part3會多跑出來的那個變數到底
該放哪裡
如果有對mlogit熟悉的人,再麻煩幫忙了>"<
※ 編輯: shirley7483 (140.114.123.153), 06/08/2017 13:15:43
15F:→ andrew43: 我可能誤會appname的意思了。可以理解它在part1的原因。 06/09 02:42
感謝大家幫助!
目前有大致頭緒,來結案(?)一下~
找到一篇論文貌似有使用alternative specific variables with alternative specific
coefficients,也就是上文中說的放在part3的變數
這篇論文提供三個選擇,變數對應到每個選擇皆有一個係數,文中可推論解讀B應該正確!
若有興趣的人可以參考 How important intrinsic and extrinsic product attributes affect purchase decision (Enneking et al., 2007).
※ 編輯: shirley7483 (111.240.104.195), 06/20/2017 15:58:18