Soft_Job 板


LINE

同为物理PhD,分享自己的经验给你参考 1. 程式语言 Python或R。这两种并不互斥,我们team不少人两种都会。个人觉得重点在: 1. 平行计算(concurrent/multi-threading/processing):根据问题是CPU-bound还是I /O-bound来选择处理方式 2. iterator/generator:像用deep learning train model时需要的资料都很大,不太 可能全部load到记忆体,以及做data generator让一笔raw data产生多笔训练资料时都会 需要用到generator 3. profiling tools:要先知道程式的bottleneck在哪才有办法优化 Python 我推荐Micha Gorelick跟Ian Ozsvald写的High performance python这本书 2. 资料库 SQL跟NoSQL基本上都会用到 3. 统计 重中之重。除了不同的machine learning方法,怎麽处理空值、极端值、unbalanced dat a、抽样、假设检定都很重要。特别是假设检定,身为data scientist,不管在哪个产业 ,基本上都需要回答「根据现有的资料,哪种情况是最可能的」这种类型的问题。 个人推荐 Garett James, Daniela Witten, Trevor Hastie, Robert Tibshirani 写的 A n introduction to statistical learning with R 这本书 4. 资料结构跟演算法:要有效率的处理软体工程方面的问题,这方面的知识很重要。 我推荐Coursera上面Princeton的Robert Sedgewick跟Kevin Wayne开的Algorithms I & I I。这门课的精华在programming assignment。每个assignment基本上都会有50-70个test cases来测试时间跟空间复杂度,还有一些corner cases。不同的情况都要考虑到才能拿 到满分。语言是用Java,但就算没学过应该也不是问题,我那时也是边学边写。题目通常 要你做一个module,里面需要好几个functions 但他只会给你interface,内容都要自己 写。不像吴恩达的machine learning跟deep learning,很多内容都给了,只要把关键的 部份补上。我上了不少online courses,这门课是唯一我认为有难度的。但相对的,通过 的话软工能力可以提升一个层次。 顺便提一下面试的事。我不知道其他公司会怎样准备跟进行,我们会看面试者的博论跟着 作,这都是网路上找的到的资料。我们会问面试者在工作或研究上使用过的工具,例如你 来,那可能会请你解释一下基因演算法跟Monte Carlo method,为什麽选择这个方法?它 的优点跟缺点?有考虑过其他的方法例如X或Y吗?诸如此类的问题。我们会对面试者当时 做选择背後的思考过程有兴趣,藉此了解他工作或研究的广度跟深度。 不确定自己有没有面试过50个人,但30个一定有。结果几乎都是entry level(可能是敝 司太烂强者不想来面)。有些人对自己使用工具背後的原理、假设、限制都不清楚,单纯 call套件下指令。而大部份人选择工具或方法的原因是「因爲老师/学长说的」。这并不 能怪他们而是我们的文化就是如此,但很难不令人感到绝望。找个mindsets ok的entry l evel进来自己训练比较实际。想转data scientist的人不少,但很多都只是想想,真的有 付出行动的不多。往好处想,在台湾你不用付出太多努力就可以赢过不少人。 另一方面,我也去面过十几间公司,不少是想成立资料分析的部门(那些单纯跟风,没算 过成本跟效益的就不提了)。所以面试我的人其实并没有能力评估我究竟适任与否,这也 同样令人绝望。 最後,讲一下资料科学家的工作 1. 资料的清理跟准备 Garbage in garbage out 这可不是说假的。举凡补空值、trimming、处理unbalanced da taset、de-noise、normalise、feature selection and generation都在这部份。就我自 己的经验,这部分对最终结果的影响是最大的,花费的时间也是最多的。 2. Background research。要念很多papers,将有机会解决手中问题的方法尽可能找出来 3. 设计实验,包括抽样范围跟方法,实验怎麽进行,结果怎麽评估 4. 结果的解释跟呈现(资料视觉化) 但在成为资料科学家之前,你必须先是位工程师 --
QR Code



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.147.21.165
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1526572023.A.9D8.html
1F:推 hahaxd78: 推! 05/18 00:01
2F:推 PHEj: 推讲得很中肯05/18 00:05
3F:推 errard: 推个05/18 00:09
4F:推 eggy1018: 谢谢提点!05/18 00:33
5F:推 cry004: 推 好清晰05/18 01:27
6F:推 lovepork: 感谢大师分享!05/18 01:33
7F:推 aszx4510: 厉害05/18 04:12
8F:推 bowin: 推分享! 05/18 04:13
9F:推 littleyuan: 谢谢分享!! 05/18 05:11
10F:推 shiauji: 强05/18 05:45
11F:推 chen1025: 推05/18 08:19
12F:推 crow1270: 推 05/18 08:42
13F:推 kekking: 推05/18 09:00
14F:推 chienjens: 推推05/18 09:17
15F:推 billy0131: 推05/18 09:36
16F:推 bcew: 推分享05/18 09:41
17F:推 pig0038: 推05/18 09:50
18F:推 gmoz: NICE05/18 09:54
19F:推 ian90911: 推分享05/18 09:57
20F:推 vn509942: 感谢分享 非常宝贵的经验05/18 10:25
21F:推 b160160: 推05/18 10:26
22F:推 f496328mm: 大部份人选择工具或方法的原因是「因爲老师/学长说的」 05/18 10:27
23F:→ f496328mm: 这点真的很中肯 05/18 10:27
24F:推 qazedcrfv: 中肯,推!05/18 10:53
25F:推 yuchio: 推05/18 10:57
26F:推 xavierqqqq: 推推05/18 10:59
27F:推 smalldra: 赞05/18 11:10
28F:推 Fen9ze: 推05/18 11:19
29F:推 Yukirin: 心有戚戚焉05/18 11:21
30F:推 yamakazi: 看来要当资料科学家也是不容易 05/18 12:13
31F:→ yamakazi: 很多物理系的觉得转职资料科学家不是太困难 但真的转成 05/18 12:15
32F:→ yamakazi: 功也没那麽容易05/18 12:15
33F:推 Sunal: 或许觉得比拿物理PhD简单吧...05/18 14:21
34F:推 az75225: 谢谢分享 05/18 17:43
35F:推 abc53: 推05/18 17:47
36F:推 adsl54010: 谢谢分享05/18 19:12
37F:推 h042910276: 推05/18 20:20
38F:推 orcahmlee: 谢分享!05/18 23:39
39F:推 billy4195: 推中肯05/19 08:08
40F:推 peter308: 感谢原po热心分享!05/19 10:38
41F:推 wxtn: 推推推05/19 21:28
42F:推 jojojen: 推05/20 10:32
43F:推 Arctica: 感谢分享05/20 14:58
44F:推 ntddt: 大推 05/21 22:19
45F:推 remember69: 豪猛 05/23 00:16
46F:推 lovepork: 请教一下,资料科学家必须先从资料工程师当起吗?05/23 12:22
47F:→ lovepork: 我近期有去跟资策会的课程经理谈过,他说他的课程只能05/23 12:23
48F:→ lovepork: 培训出资料工程师,但我看那个课程已经是非常硬的了05/23 12:24
49F:→ lovepork: 一到五 0900~1700 密集上五个月才能结业!05/23 12:25
50F:推 lovepork: 所以假设我去上完资策会的资料工程师培训,还要补足统计05/23 12:28
51F:→ lovepork: 所的一些课程,才有资格去应付资料科学家所赋予的挑战?05/23 12:28
52F:→ lovepork: superalf大 能否点建议? 感谢! 05/23 12:29
不清楚资策会的课程内容所以没法给建议。但就是不是要从资料工程师当起这个问题,应 该说资料科学家必须要会资料前处理跟资料准备,而这工作需要工程能力。 真实世界的资料什麽光怪陆离的情况都有。举个例子,IBM的正式名称是International B usiness Machines Corporation,但它在正式专利文件里面的拼法就有两百多种。类似的 状况有些是笔误,有些则是故意的,刻意让你无法用keyword search找到。像这种资料正 规化的工作你必须要有能力处理。 再拿影像辨识来说,原始资料可能有肉眼看不出来的背景,但看pixel value就很明显。 如果不去背就直接拿去当训练资料,模型可能根本不能用。去背这种事情也是工程问题。 再举个例子,原始资料如果有杂讯(例如电话号码不小心跟地址黏在一起),不处理直接 塞进SQL。之後查找时被逼的不得不使用like语法,那效能绝对让你想哭。 像我也要分析log,但我只对其中一小部分有兴趣,所以需要做data ETL,筛选log,做些 简单的处理放到其他地方,之後再做分析。这也是工程。 机器学习的程式码中,关键的可能只有几行,要写出那几行很吃统计知识。然而另一方面 ,要让那几行可以work,前面必须做非常多前处理的工作。 之前玩过kaggle上的一个分类问题。没做前处理,准确率只有7%,做了前处理,就跳到37 %了。这差别是很大的。 ※ 编辑: superalf (27.147.21.165), 05/24/2018 00:47:03 ※ 编辑: superalf (27.147.21.165), 05/24/2018 00:48:59
53F:推 lovepork: 感谢superalf大的回覆,受益匪浅。 05/24 15:39
54F:→ lovepork: 看样子,去资策会是势所难免了。 05/24 15:40
55F:推 voyager520: 朝圣推 05/25 23:32







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP