作者jikett (jikeZ)
看板DataScience
标题[问题] logistic regression vs SVM
时间Fri Mar 30 09:25:15 2018
各位大神前辈好,小弟不才,最近在面试遇到一个有趣的问题,
面试官问说data在什麽情况下会用logistic regression,什麽
情况下会用SVM?
当下有点愣住,若谈boundary的特性,两个都可以透过kernel
trick转成nonlinear。印象中以前看蛮多例子都会用
K-fold cross validation做比较,好像没有一个通则说什麽情
形下哪一个一定会优於另一个。
後来跟一个Phd朋友讨论後,也只得到说logistic regression在
data seperable情况下,MLE会是无穷大,但在practical中并不
常见完全seperable的data?!
另外有想到说loss的差异,但其实hinge loss跟logistic regression
的loss(sigmoid+cross entropy)似乎也只有微小差异? 且loss的
不同似乎也不是面试官想问的data特性?
最後只想到multi-class,LR有softmax推广到multi-class,但SVM
也可以做1-vs-all SVMs。不晓得各位大神前辈们对於这两者的比较
适用於什麽样的data有什麽看法? 先谢谢各位大神前辈!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 71.56.79.88
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1522373117.A.797.html
1F:推 e196819: 我猜 1-vs-all 的 decision boundary 有陷阱? 03/30 09:41
2F:→ EGsux: 这要回有点长xd decision boundry不一样 interpretability 03/30 09:42
3F:→ EGsux: 还有 big O complexity 都不同 03/30 09:42
4F:→ EGsux: 就算是y=0,1 他们的特性都差很多 03/30 09:43
5F:→ EGsux: svm prediction on unseen data 会比较准一点? 因为用 sup 03/30 09:44
6F:→ EGsux: port vector的特性 特别是小的dataset? 03/30 09:44
7F:→ EGsux: boundry 可不只有 linear non linear, SVM 的SV是指 suppor 03/30 09:46
8F:→ EGsux: t vector 03/30 09:46
9F:推 EGsux: 还有n>m用SVM也会比较好 03/30 09:50
10F:推 NBAPredictor: 学术单位的面试? 03/30 10:23
11F:推 lucien0410: 推! 03/30 10:25
12F:→ lukelove: svm with radio basis, will transfrom data p -> n dim 03/31 00:58