作者allen1985 (我要低调 拯救形象)
看板DataScience
标题Re: [问题] 统计与资工在资料科学的差异
时间Sun Jun 14 11:57:11 2020
也许我跟前一篇神人有共同神人朋友 小弟我是纯统计人
大学硕士博士 都是念统计 博士毕业後在一家研究机构担任
Research Scientist - Data Science
工作快满四年 虽然只有在一间公司 但可以稍微分享我公司的情况
首先 不只我的背景是纯统计 我的研究领域是实验设计 电脑实验
可以说离ML DL 非常遥远 因为在我的世界里 样本数超过50个都要偷笑
说个题外话 之前帮一家做大型电器的公司做分析 42个样本花了1 million (美金)
只是想先对统计人说 在资料科学的世界 不是单纯的只有大数据
上班後 我选择了走向比较偏ML DL的路 目前主要是在做NLP相关的案子
统计人学习ML 其实是不难的 因为大部分的ML 其实在统计的课程里都有提过
也许着重的方向不一样 我知道现在没人在管残差 normality test等等
如果单纯的只是要 找寻适当地ML DL方法 来分析资料
有统计的背景 很快就可以抓到这些方法的精髓
你会说 资工 CS的人这些也都会啊 那统计的人优势在哪里
我认为是资料分析上对数字的敏感度 以及找出影响的因子
我的部门里面大概是5个统计博士 1个应数博士 3个EE or CSE博士 一堆统计CS硕士
统计人通常比较能够回答 为什麽会这样 或者当预设的方法行不通的时候
统计人比较能够想到其他做法 而不是ML 每一个方法是试一遍 用Precision/Recall/F1
来决定使用哪个模型
还记得一个小案子 一个别的部门的主管跟Texas A&M的博士生合作 用LSTM分析一组
Time series 的资料 预测结果非常糟糕 但他们找不出原因
因为LSTM基本上算DL里面对Time series default 的方法了
那他们做了 LSTM不行 就试试RNN 再试ANN
但其实我只做了一件小事情就解决了问题 画图
统计老师最常说的一句话 拿到资料先画图 而不是先把资料丢进模型
结论是 哪组资料有四个outputs 有两个跟另外两个根本完全不一样
那是一组石油的资料 灌水进去洞里面 希望最多石油喷出来
其实有两个production wells 最後被判定是有问题的
garbage in garbage out
另外 最後老板跟Texam A&M最喜欢的模型是 Linear model with constraints
因为加了constrints的模型 可以符合其物理意义 而这是LSTM, RNN, ANN做不到的
ML DL的方法真的很厉害 我现在每天都在用BERT, XLNet等models
我都觉得 这些models出来一定让很多人失业
我们公司之前NLP model 都是请一家专门的公司做的
一年要付他们$16,000 license fee
但在BERT出来後 三个月我们自己做的 就outperform 他们的NLP models
用一样的training data 更何况我们team 还没有人是有NLP背景的
当然 以现在工作上需要的东西来看 过去的统计训练
我认为在 data base 跟 data structure 的方法 是真的比较欠缺的
但在中大型的公司 可能也不是问题
我们公司每个案子 基本上都是 统计跟CS的人配合 (在我们公司都叫DS)
他们负责抓资料 建立Web-service 而我们负责模型的部分
然後都被抱怨写的code style 不对
而我们都抱怨他们 被他们改过 超难debug
结论 很多人认为资工比较好 统计也不差的 给统计人一点信心
只能说 资料科学家 这个名词其实包含的很多种不同的工作型态
不同领域的人 在不同的行业会有其优势
而我认为 要在资料科学家这领域生存
最重要的是不断的学习 跟上模型进步的脚步
小小心得分享
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 98.31.7.190 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1592107034.A.B25.html
※ 编辑: allen1985 (98.31.7.190 美国), 06/14/2020 12:00:33
1F:推 mistrust0525: 推! 06/14 12:34
2F:推 kokolotl: 现在我也都直接拿pre train的来用 06/14 13:38
3F:→ kokolotl: 方便太多了.. 06/14 13:38
4F:推 filialpiety: 推~ 06/14 13:47
推 ar851060: 推,但怎麽感觉进DS的话,统计人都要到博士?
06/14 14:14
其实 我自己也常在想这个问题 因为原本的生涯规划是要走学术界 一定得念博士
所以一路走来也没想太多 大学毕业考硕士班 硕士毕业当兵 中研院研究助理
出国博士班
上班以後反而常在想 如果当初我就想走业界 是不是不需要浪费五年拿博士
五年可以赚很多钱的
只能分享在我公司看到的情况
对硕士进来的要求就是 在一个team里面 主要做dirty work的人
所以8成的时间 可能都在R/Python
对博士进来的要求也是做dirty work 大概6成的时间也都在R/Python/SAS/Matlab
但对博士会要求 要有想法
业界不需要你从理论发展出一个新发法 但需要很快地找出哪个方法可能可以用
而且有东西让你用 绝对不可能有budget 像博士班一样 看到一篇paper
花几个月的时间去implement it
另外就是常常在把A, B, C 方法结合起来 变成一个新的方法
你说 这要求 硕士毕业做不到吗 其实很多人是可以的
差别就在於 有没有那个机会 以及有没有那个习惯
机会是说 PM可能有问题时 会习惯的问博士level的人
所以 机会是要给准备好的人 不管什麽学历 只要你能一直在开会的时候
一直提出有用的建议 很快你就会进入决策中心 而不是只是单纯写程式的人
那博士班的好处呢
我个人觉得 博士班对於独立研究的训练 还是要有其帮助的
尤其遇到传统方法结果不好的时候
博士level的 通常比较能快速地找出解决方案
大家都知道 资料分析 最不花时间的就是 套用package算出答案
想方法 整理资料 远比最後一块算答案的难
在美国大部分统计硕士 是不写论文的
所以相对来说 只有硕士毕业的人 通常没经历过 paper的摧残
以及如何在几分钟内就把paper丢掉 就算title再怎麽像是完美地符合你的需要
不用浪费时间去了解用不到的方法
5F:推 andy086: 推推,好文! 06/14 16:57
6F:推 fsuhcikt1003: 推 06/14 17:49
7F:推 geminitw: 推 06/14 20:48
※ 编辑: allen1985 (98.31.7.190 美国), 06/14/2020 22:02:15
8F:推 LincolnBoy: 推 06/14 22:31
9F:推 liangniko: 推推 06/15 00:43
10F:推 hippo130: 推 06/15 01:06
11F:推 bowin: 推 06/15 03:46
12F:推 AmibaGelos: 推推 好奇问1M的case可以改用transfer learning吗? 06/15 11:38
不敢说不可能 但感觉机会不大 transfer learning 也要先有资料train一个模型啊
後来我们的做法是 因为这个实验是有simulator的
虽然客户也不相信simulator的准确率 但经过一些比较 认为simulator 还是有其效果
最後是用Bayesian Calibration Model 来利用真实物理实验 来校正simulator
而用校正後的模型 来做预测 并找出最佳解
这模型是based on Gaussian process 可能做空间统计 或者电脑实验的人才会听过
※ 编辑: allen1985 (98.31.7.190 美国), 06/15/2020 11:55:07
13F:推 purpleboy01: 推推 06/15 14:40
14F:推 AmibaGelos: 也是 是偶耍蠢惹lol 用GP至少知道每个点都被utilize 06/15 16:14
15F:→ AmibaGelos: w/o bias 不像transfer learning还得有个前置问题 06/15 16:14
16F:推 st1009: 推推 06/15 17:24
17F:推 bearching: 推 请问linear model w/ constraints 是ridge LASSO E 06/15 22:32
18F:→ bearching: lastic net 这样的regularized model吗? 06/15 22:32
没这麽复杂喔 简单地一个概念 灌多少水进去injection wells 理论上就有多少水
从production wells 出来 在这实验里 有五个injection wells 四个production wells
我们把回归的coefficients 想像成每一个injection well 会贡献到每一个
production well的比例 所以constraints 是 sum of coefficients for each
injection well = 1 每个coefficients 是0-1的值
至於怎麽fit这样的回归模型 想想了喔!
※ 编辑: allen1985 (98.31.7.190 美国), 06/15/2020 23:12:27
※ 编辑: allen1985 (98.31.7.190 美国), 06/15/2020 23:23:41
19F:推 LibrainAir: 推 06/16 00:44
20F:推 patrickchou: 获益良多,推好文 06/16 07:58
21F:推 ChenYinYin: 推 06/16 09:57
22F:推 blackmaninEE: 推好文 06/16 14:17
23F:推 hahaxd78: 推 06/16 18:49
24F:推 tacoking: 好文 推 06/16 19:06
25F:推 ken83715: 推 06/18 19:46
26F:推 preed: 好文 06/22 20:25
27F:→ rayu: 感谢分享! 06/25 17:54
28F:推 q8977452: 推 06/25 20:19
29F:推 joe120519: 推 06/26 12:54
30F:推 azzc1031: 好猛 07/01 00:58
31F:推 ilovejesus: 推 07/09 17:52
32F:推 NOYUYU: 推 04/22 01:45