作者fsuhcikt1003 (Yang)
看板DataScience
標題Re: [問題] 統計與資工在資料科學的差異
時間Fri Jun 5 13:32:21 2020
※ 引述《ctr1 (【積π】)》之銘言:
: 想請問版上的先進
: 在資料科學 機器學習 深度學習這領域上
: 統計系所 資工系所
: 差異性在哪裡呢
: 感謝各位了
看到有人這樣問,就讓我勾起以前一樣的疑惑,到底統研所和資工所的ML有何差別
目前已上過統研所的ML(統研所叫統計學習或者和計算統計重疊)和正在上資工所的ML。
雖然還是才疏學淺,但還是提供目前小小觀點,如果有錯,請大神指正。
至於深度學習,我目前也只是碰一點點NN,僅此而已。所以無法提供觀點比較。
統研所的統計學習和計算統計,基本上教科書就是ESL
先講統計學習:
從統計觀點出發,以Linear Regression開始,你讀到後面會發現很多模型假設都是有線性迴歸的影子在。
參數到非參數(Splines應該就算是最主要的詮釋,你會發現有線性迴歸的fu)
但是,我在學的過程中,很困惑,為何學一堆方法,然後就直接用R跑,That's it!
老師上課證明證明證到大家睡著,還記得他證Back Propogation讓我大吃一驚,怎會有人想出這演算法。
但是呢,我就曾經問過老師,我手上有一筆資料,那我要如何評斷我的model,難不成只能說這方法預測效果比較好。
還記得老師那時候說:I never know.
事後我覺得也對,每個資料有每個資料的屬性,哪些資料用哪些方法效果比較好,可能就是那些內行人的秘方
至於什麼trees, random forest, neural network都會講到,也會寫數學推導。
所以我目前覺得統研所的觀點偏很數學。
至於程式設計,老師根本沒有要你寫程式。說用R跑就可以了。
再來計算統計:
當然從課名就知道是從計算機角度看統計,你會用很多gradient descent, hessian matrix
去找MLE什麼的,基本上就是從演算法角度去求解統計需要的optimization和sampling問題。
我在修的時候,作業幾乎都有coding,考試卻考你一堆數學推導,那時候真的修的很痛苦
要同時顧及coding和數學題目其實loading有點大。
現在在上資工所的ML,教科書大多都是用PRML,這本我覺得滿有機率論的fu
正在上的感覺是主要就是分clustering, supervised and non-supervised
沒有偏哪一門,反倒統計主要是以supervised learning為主。
沒有考試,只有作業和projects,上課數學推導沒有很多,直接給你直觀的解釋。
然後就要叫你寫k means, GMM之類的,就是start from scratch
CS的訓練本來就是這樣,你聽完老師上課,剩下就是你要去實現它。
這就是我覺得stat和cs最大的不同。
但是,我自己感覺CS的人會困惑這些數學式子,stat會苦於無法把自己的模型實現。
如果你是可以讀統博的人,我覺得修哪都沒差,但如果你只有碩士,我覺得還是學CS的ML比較好。
因為統碩學的,你去外面給人講,會讓人覺得你只是懂會講,至於那些engineering side,可以立即看到產出的,你無法給外人看到東西。
自然會讓人覺得是不是只是空有一張嘴巴XD
但是我覺得還是看各個學校拉,有些統研所老師也是資工所老師,所以我覺得還是有差別。
如果你的統研所老師是那種純數學出身,八九不離十他的ML一定很多數學推導
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.136.176 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1591335143.A.C8E.html
※ 編輯: fsuhcikt1003 (114.37.136.176 臺灣), 06/05/2020 13:34:25
1F:推 geminitw: 不懂原理卻一直coding真的心很累,像baysian NN我就自己 06/05 14:08
2F:→ geminitw: 花了一年才算理解。 06/05 14:08
3F:推 geminitw: 很好奇CS背景在看PRML variational inference 章節每個 06/05 14:14
4F:→ geminitw: 字句都充份理解?我弱我不行。 06/05 14:14
5F:推 filialpiety: 我被生物意義和數學原理困住,coding頂多是卡在bug.. 06/05 14:27
6F:推 aidansky0989: 數學跟實作同樣重要,先檢視你的數據、目標找最適合 06/05 14:52
7F:→ aidansky0989: 的算法 06/05 14:52
8F:推 sa0124: 推 06/05 17:04
9F:推 sxy67230: CS ML理解深不深還是要看教授,不過電資教授通常都是假 06/05 19:55
10F:→ sxy67230: 設學生數理能力沒問題了,直接從物理意義上推究,真的碰 06/05 19:55
11F:→ sxy67230: 到有興趣的部分在深入做推導就好了。至於業界真的碰到 06/05 19:55
12F:→ sxy67230: 的都是要你去解決工程問題算法落地才是一切,那種尚待 06/05 19:55
13F:→ sxy67230: 探索的理論不是業界需要的,除非你有能力進到最先進的 06/05 19:55
14F:→ sxy67230: 企業實驗室,不然我真心認為不需要真的自己會推導,反 06/05 19:55
15F:→ sxy67230: 而CS學到的工程實務才是真正需要的。灣區一堆DS現在薪 06/05 19:55
16F:→ sxy67230: 資也走向兩極化,除非你真的超強自創ML算法模型,不然真 06/05 19:55
17F:→ sxy67230: 的要往上爬只有靠結合工程應用。 06/05 19:55
18F:推 sxy67230: 套一句我以前教授說的,做學術領域第一種超強是開宗闢土 06/05 20:02
19F:→ sxy67230: ,有能力從0開始推敲出沒有人有辦法突破的公理,這種人 06/05 20:02
20F:→ sxy67230: 十幾億人只有只千個,普通人就乖乖理解物理意義,實踐工 06/05 20:02
21F:→ sxy67230: 程來改善前人算法的缺點就可以上很好的Journal了。 06/05 20:02
22F:→ sxy67230: 台灣的小朋友太喜歡推導公式這件事情上了,我大學也很 06/05 20:20
23F:→ sxy67230: 喜歡推導,那個時候寫滿滿一本在推馬克斯威爾方程,後 06/05 20:20
24F:→ sxy67230: 來教授只是點一下物理意義馬上就通了才發現太拘泥在推 06/05 20:20
25F:→ sxy67230: 導公式上不太有實質意義。 06/05 20:20
26F:→ AmibaGelos: 推s大 實現比較重要 原理推導自己try不會太浪費時間 06/06 15:16
27F:→ AmibaGelos: 不要像偶自以為coding還行浪費1年優化自刻的mcmc orz 06/06 15:16
28F:推 bebe666666: 好奇原po大學是不是念統計系 06/06 15:53
29F:推 acctouhou: 的確啊 現在ML領域都一堆輪子了 沒必要從頭刻吧? 除非 06/06 16:45
30F:→ acctouhou: 是想理解概念 06/06 16:45
31F:推 ddavid: 懂輪子怎麼跑起來的還是會有所幫助,真正頂尖的人最後都是 06/07 01:36
32F:→ ddavid: 兩者兼具,但不是所有人都非得到那個程度才可以開始做研究 06/07 01:37
33F:→ ddavid: ,這東西是可以漸進的,而且也可以停在自己覺得足夠的地方 06/07 01:37
34F:推 memphis: 覺得這篇討論好多乾貨..讓我膜拜一下 06/08 09:24
35F:→ purpleboy01: 想到我老師出國念CS碩博順便念了一個統計碩 06/08 15:30
36F:推 rayu: 感謝分享! 06/25 17:53