作者fsuhcikt1003 (Yang)
看板DataScience
标题Re: [问题] 统计与资工在资料科学的差异
时间Fri Jun 5 13:32:21 2020
※ 引述《ctr1 (【积π】)》之铭言:
: 想请问版上的先进
: 在资料科学 机器学习 深度学习这领域上
: 统计系所 资工系所
: 差异性在哪里呢
: 感谢各位了
看到有人这样问,就让我勾起以前一样的疑惑,到底统研所和资工所的ML有何差别
目前已上过统研所的ML(统研所叫统计学习或者和计算统计重叠)和正在上资工所的ML。
虽然还是才疏学浅,但还是提供目前小小观点,如果有错,请大神指正。
至於深度学习,我目前也只是碰一点点NN,仅此而已。所以无法提供观点比较。
统研所的统计学习和计算统计,基本上教科书就是ESL
先讲统计学习:
从统计观点出发,以Linear Regression开始,你读到後面会发现很多模型假设都是有线性回归的影子在。
参数到非参数(Splines应该就算是最主要的诠释,你会发现有线性回归的fu)
但是,我在学的过程中,很困惑,为何学一堆方法,然後就直接用R跑,That's it!
老师上课证明证明证到大家睡着,还记得他证Back Propogation让我大吃一惊,怎会有人想出这演算法。
但是呢,我就曾经问过老师,我手上有一笔资料,那我要如何评断我的model,难不成只能说这方法预测效果比较好。
还记得老师那时候说:I never know.
事後我觉得也对,每个资料有每个资料的属性,哪些资料用哪些方法效果比较好,可能就是那些内行人的秘方
至於什麽trees, random forest, neural network都会讲到,也会写数学推导。
所以我目前觉得统研所的观点偏很数学。
至於程式设计,老师根本没有要你写程式。说用R跑就可以了。
再来计算统计:
当然从课名就知道是从计算机角度看统计,你会用很多gradient descent, hessian matrix
去找MLE什麽的,基本上就是从演算法角度去求解统计需要的optimization和sampling问题。
我在修的时候,作业几乎都有coding,考试却考你一堆数学推导,那时候真的修的很痛苦
要同时顾及coding和数学题目其实loading有点大。
现在在上资工所的ML,教科书大多都是用PRML,这本我觉得满有机率论的fu
正在上的感觉是主要就是分clustering, supervised and non-supervised
没有偏哪一门,反倒统计主要是以supervised learning为主。
没有考试,只有作业和projects,上课数学推导没有很多,直接给你直观的解释。
然後就要叫你写k means, GMM之类的,就是start from scratch
CS的训练本来就是这样,你听完老师上课,剩下就是你要去实现它。
这就是我觉得stat和cs最大的不同。
但是,我自己感觉CS的人会困惑这些数学式子,stat会苦於无法把自己的模型实现。
如果你是可以读统博的人,我觉得修哪都没差,但如果你只有硕士,我觉得还是学CS的ML比较好。
因为统硕学的,你去外面给人讲,会让人觉得你只是懂会讲,至於那些engineering side,可以立即看到产出的,你无法给外人看到东西。
自然会让人觉得是不是只是空有一张嘴巴XD
但是我觉得还是看各个学校拉,有些统研所老师也是资工所老师,所以我觉得还是有差别。
如果你的统研所老师是那种纯数学出身,八九不离十他的ML一定很多数学推导
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.37.136.176 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1591335143.A.C8E.html
※ 编辑: fsuhcikt1003 (114.37.136.176 台湾), 06/05/2020 13:34:25
1F:推 geminitw: 不懂原理却一直coding真的心很累,像baysian NN我就自己 06/05 14:08
2F:→ geminitw: 花了一年才算理解。 06/05 14:08
3F:推 geminitw: 很好奇CS背景在看PRML variational inference 章节每个 06/05 14:14
4F:→ geminitw: 字句都充份理解?我弱我不行。 06/05 14:14
5F:推 filialpiety: 我被生物意义和数学原理困住,coding顶多是卡在bug.. 06/05 14:27
6F:推 aidansky0989: 数学跟实作同样重要,先检视你的数据、目标找最适合 06/05 14:52
7F:→ aidansky0989: 的算法 06/05 14:52
8F:推 sa0124: 推 06/05 17:04
9F:推 sxy67230: CS ML理解深不深还是要看教授,不过电资教授通常都是假 06/05 19:55
10F:→ sxy67230: 设学生数理能力没问题了,直接从物理意义上推究,真的碰 06/05 19:55
11F:→ sxy67230: 到有兴趣的部分在深入做推导就好了。至於业界真的碰到 06/05 19:55
12F:→ sxy67230: 的都是要你去解决工程问题算法落地才是一切,那种尚待 06/05 19:55
13F:→ sxy67230: 探索的理论不是业界需要的,除非你有能力进到最先进的 06/05 19:55
14F:→ sxy67230: 企业实验室,不然我真心认为不需要真的自己会推导,反 06/05 19:55
15F:→ sxy67230: 而CS学到的工程实务才是真正需要的。湾区一堆DS现在薪 06/05 19:55
16F:→ sxy67230: 资也走向两极化,除非你真的超强自创ML算法模型,不然真 06/05 19:55
17F:→ sxy67230: 的要往上爬只有靠结合工程应用。 06/05 19:55
18F:推 sxy67230: 套一句我以前教授说的,做学术领域第一种超强是开宗辟土 06/05 20:02
19F:→ sxy67230: ,有能力从0开始推敲出没有人有办法突破的公理,这种人 06/05 20:02
20F:→ sxy67230: 十几亿人只有只千个,普通人就乖乖理解物理意义,实践工 06/05 20:02
21F:→ sxy67230: 程来改善前人算法的缺点就可以上很好的Journal了。 06/05 20:02
22F:→ sxy67230: 台湾的小朋友太喜欢推导公式这件事情上了,我大学也很 06/05 20:20
23F:→ sxy67230: 喜欢推导,那个时候写满满一本在推马克斯威尔方程,後 06/05 20:20
24F:→ sxy67230: 来教授只是点一下物理意义马上就通了才发现太拘泥在推 06/05 20:20
25F:→ sxy67230: 导公式上不太有实质意义。 06/05 20:20
26F:→ AmibaGelos: 推s大 实现比较重要 原理推导自己try不会太浪费时间 06/06 15:16
27F:→ AmibaGelos: 不要像偶自以为coding还行浪费1年优化自刻的mcmc orz 06/06 15:16
28F:推 bebe666666: 好奇原po大学是不是念统计系 06/06 15:53
29F:推 acctouhou: 的确啊 现在ML领域都一堆轮子了 没必要从头刻吧? 除非 06/06 16:45
30F:→ acctouhou: 是想理解概念 06/06 16:45
31F:推 ddavid: 懂轮子怎麽跑起来的还是会有所帮助,真正顶尖的人最後都是 06/07 01:36
32F:→ ddavid: 两者兼具,但不是所有人都非得到那个程度才可以开始做研究 06/07 01:37
33F:→ ddavid: ,这东西是可以渐进的,而且也可以停在自己觉得足够的地方 06/07 01:37
34F:推 memphis: 觉得这篇讨论好多乾货..让我膜拜一下 06/08 09:24
35F:→ purpleboy01: 想到我老师出国念CS硕博顺便念了一个统计硕 06/08 15:30
36F:推 rayu: 感谢分享! 06/25 17:53