DataScience 板


LINE

也许我跟前一篇神人有共同神人朋友 小弟我是纯统计人 大学硕士博士 都是念统计 博士毕业後在一家研究机构担任 Research Scientist - Data Science 工作快满四年 虽然只有在一间公司 但可以稍微分享我公司的情况 首先 不只我的背景是纯统计 我的研究领域是实验设计 电脑实验 可以说离ML DL 非常遥远 因为在我的世界里 样本数超过50个都要偷笑 说个题外话 之前帮一家做大型电器的公司做分析 42个样本花了1 million (美金) 只是想先对统计人说 在资料科学的世界 不是单纯的只有大数据 上班後 我选择了走向比较偏ML DL的路 目前主要是在做NLP相关的案子 统计人学习ML 其实是不难的 因为大部分的ML 其实在统计的课程里都有提过 也许着重的方向不一样 我知道现在没人在管残差 normality test等等 如果单纯的只是要 找寻适当地ML DL方法 来分析资料 有统计的背景 很快就可以抓到这些方法的精髓 你会说 资工 CS的人这些也都会啊 那统计的人优势在哪里 我认为是资料分析上对数字的敏感度 以及找出影响的因子 我的部门里面大概是5个统计博士 1个应数博士 3个EE or CSE博士 一堆统计CS硕士 统计人通常比较能够回答 为什麽会这样 或者当预设的方法行不通的时候 统计人比较能够想到其他做法 而不是ML 每一个方法是试一遍 用Precision/Recall/F1 来决定使用哪个模型 还记得一个小案子 一个别的部门的主管跟Texas A&M的博士生合作 用LSTM分析一组 Time series 的资料 预测结果非常糟糕 但他们找不出原因 因为LSTM基本上算DL里面对Time series default 的方法了 那他们做了 LSTM不行 就试试RNN 再试ANN 但其实我只做了一件小事情就解决了问题 画图 统计老师最常说的一句话 拿到资料先画图 而不是先把资料丢进模型 结论是 哪组资料有四个outputs 有两个跟另外两个根本完全不一样 那是一组石油的资料 灌水进去洞里面 希望最多石油喷出来 其实有两个production wells 最後被判定是有问题的 garbage in garbage out 另外 最後老板跟Texam A&M最喜欢的模型是 Linear model with constraints 因为加了constrints的模型 可以符合其物理意义 而这是LSTM, RNN, ANN做不到的 ML DL的方法真的很厉害 我现在每天都在用BERT, XLNet等models 我都觉得 这些models出来一定让很多人失业 我们公司之前NLP model 都是请一家专门的公司做的 一年要付他们$16,000 license fee 但在BERT出来後 三个月我们自己做的 就outperform 他们的NLP models 用一样的training data 更何况我们team 还没有人是有NLP背景的 当然 以现在工作上需要的东西来看 过去的统计训练 我认为在 data base 跟 data structure 的方法 是真的比较欠缺的 但在中大型的公司 可能也不是问题 我们公司每个案子 基本上都是 统计跟CS的人配合 (在我们公司都叫DS) 他们负责抓资料 建立Web-service 而我们负责模型的部分 然後都被抱怨写的code style 不对 而我们都抱怨他们 被他们改过 超难debug 结论 很多人认为资工比较好 统计也不差的 给统计人一点信心 只能说 资料科学家 这个名词其实包含的很多种不同的工作型态 不同领域的人 在不同的行业会有其优势 而我认为 要在资料科学家这领域生存 最重要的是不断的学习 跟上模型进步的脚步 小小心得分享 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 98.31.7.190 (美国)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1592107034.A.B25.html ※ 编辑: allen1985 (98.31.7.190 美国), 06/14/2020 12:00:33
1F:推 mistrust0525: 推! 06/14 12:34
2F:推 kokolotl: 现在我也都直接拿pre train的来用 06/14 13:38
3F:→ kokolotl: 方便太多了.. 06/14 13:38
4F:推 filialpiety: 推~ 06/14 13:47
ar851060: 推,但怎麽感觉进DS的话,统计人都要到博士? 06/14 14:14 其实 我自己也常在想这个问题 因为原本的生涯规划是要走学术界 一定得念博士 所以一路走来也没想太多 大学毕业考硕士班 硕士毕业当兵 中研院研究助理 出国博士班 上班以後反而常在想 如果当初我就想走业界 是不是不需要浪费五年拿博士 五年可以赚很多钱的 只能分享在我公司看到的情况 对硕士进来的要求就是 在一个team里面 主要做dirty work的人 所以8成的时间 可能都在R/Python 对博士进来的要求也是做dirty work 大概6成的时间也都在R/Python/SAS/Matlab 但对博士会要求 要有想法 业界不需要你从理论发展出一个新发法 但需要很快地找出哪个方法可能可以用 而且有东西让你用 绝对不可能有budget 像博士班一样 看到一篇paper 花几个月的时间去implement it 另外就是常常在把A, B, C 方法结合起来 变成一个新的方法 你说 这要求 硕士毕业做不到吗 其实很多人是可以的 差别就在於 有没有那个机会 以及有没有那个习惯 机会是说 PM可能有问题时 会习惯的问博士level的人 所以 机会是要给准备好的人 不管什麽学历 只要你能一直在开会的时候 一直提出有用的建议 很快你就会进入决策中心 而不是只是单纯写程式的人 那博士班的好处呢 我个人觉得 博士班对於独立研究的训练 还是要有其帮助的 尤其遇到传统方法结果不好的时候 博士level的 通常比较能快速地找出解决方案 大家都知道 资料分析 最不花时间的就是 套用package算出答案 想方法 整理资料 远比最後一块算答案的难 在美国大部分统计硕士 是不写论文的 所以相对来说 只有硕士毕业的人 通常没经历过 paper的摧残 以及如何在几分钟内就把paper丢掉 就算title再怎麽像是完美地符合你的需要 不用浪费时间去了解用不到的方法
5F:推 andy086: 推推,好文! 06/14 16:57
6F:推 fsuhcikt1003: 推 06/14 17:49
7F:推 geminitw: 推 06/14 20:48
※ 编辑: allen1985 (98.31.7.190 美国), 06/14/2020 22:02:15
8F:推 LincolnBoy: 推 06/14 22:31
9F:推 liangniko: 推推 06/15 00:43
10F:推 hippo130: 推 06/15 01:06
11F:推 bowin: 推 06/15 03:46
12F:推 AmibaGelos: 推推 好奇问1M的case可以改用transfer learning吗? 06/15 11:38
不敢说不可能 但感觉机会不大 transfer learning 也要先有资料train一个模型啊 後来我们的做法是 因为这个实验是有simulator的 虽然客户也不相信simulator的准确率 但经过一些比较 认为simulator 还是有其效果 最後是用Bayesian Calibration Model 来利用真实物理实验 来校正simulator 而用校正後的模型 来做预测 并找出最佳解 这模型是based on Gaussian process 可能做空间统计 或者电脑实验的人才会听过 ※ 编辑: allen1985 (98.31.7.190 美国), 06/15/2020 11:55:07
13F:推 purpleboy01: 推推 06/15 14:40
14F:推 AmibaGelos: 也是 是偶耍蠢惹lol 用GP至少知道每个点都被utilize 06/15 16:14
15F:→ AmibaGelos: w/o bias 不像transfer learning还得有个前置问题 06/15 16:14
16F:推 st1009: 推推 06/15 17:24
17F:推 bearching: 推 请问linear model w/ constraints 是ridge LASSO E 06/15 22:32
18F:→ bearching: lastic net 这样的regularized model吗? 06/15 22:32
没这麽复杂喔 简单地一个概念 灌多少水进去injection wells 理论上就有多少水 从production wells 出来 在这实验里 有五个injection wells 四个production wells 我们把回归的coefficients 想像成每一个injection well 会贡献到每一个 production well的比例 所以constraints 是 sum of coefficients for each injection well = 1 每个coefficients 是0-1的值 至於怎麽fit这样的回归模型 想想了喔! ※ 编辑: allen1985 (98.31.7.190 美国), 06/15/2020 23:12:27 ※ 编辑: allen1985 (98.31.7.190 美国), 06/15/2020 23:23:41
19F:推 LibrainAir: 推 06/16 00:44
20F:推 patrickchou: 获益良多,推好文 06/16 07:58
21F:推 ChenYinYin: 推 06/16 09:57
22F:推 blackmaninEE: 推好文 06/16 14:17
23F:推 hahaxd78: 推 06/16 18:49
24F:推 tacoking: 好文 推 06/16 19:06
25F:推 ken83715: 推 06/18 19:46
26F:推 preed: 好文 06/22 20:25
27F:→ rayu: 感谢分享! 06/25 17:54
28F:推 q8977452: 推 06/25 20:19
29F:推 joe120519: 推 06/26 12:54
30F:推 azzc1031: 好猛 07/01 00:58
31F:推 ilovejesus: 推 07/09 17:52
32F:推 NOYUYU: 推 04/22 01:45







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Tech_Job站内搜寻

TOP