作者nctukmdick (kmdick)
看板DataScience
标题[讨论] 资料分析的门槛
时间Mon Apr 22 18:54:58 2019
小弟目前还是菜逼八大学生,最近做资料分析的专题觉得有点渺茫,感觉都是在拿套件做
一些固定的流程
ex:
搜集资料、feature selection、套sklearn的model或用pytorch之类的package写一个NN,
我觉得叫一个没学过机器学习的高中生学一下python也做的出来我现在在做的事,那我
学这些理论的意义到底在哪?
请各位大神指点一下 谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.113.121.11
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1555930500.A.6BA.html
1F:→ sean50301: 严格上来说你只学到步骤 没学到理论04/22 19:05
2F:→ sxy67230: data scientist很多时候都在分析资料,处理资料的脉络,04/22 19:34
3F:→ sxy67230: 了解你的资料,反而model训练都是次要的,资料前处理做04/22 19:34
4F:→ sxy67230: 得好,用什麽方法其实没太大的差异。你还没领会到精髓,04/22 19:34
5F:→ sxy67230: 现成的dataset都是帮你处理好的,你很难体会到。04/22 19:34
6F:推 kokolotl: 从脏资料兜到能用的,中间省略,分析完要干嘛04/22 19:41
7F:→ kokolotl: 前後吃经验的卡好玩04/22 19:41
8F:→ sxy67230: 还有客户有时候给你一大坨脏资料,你问他想做什麽,他回04/22 19:55
9F:→ sxy67230: 不知道,我想做很酷很炫又很AI的东西。客户通常的意思就04/22 19:55
10F:→ sxy67230: 是我把资料给你,你能做出跟我心里想的一样的,跟我一04/22 19:55
11F:→ sxy67230: 样有智慧的东西。04/22 19:55
12F:推 germun: 因为更深的理论不是一般大学生学得会的 先把大学基础学好 04/22 20:55
有修过113电信的ml跟看过林轩田的ml ,但是教的model在sklearn都有了吧@@好像最後也
只要无脑call那些写好的function就好
13F:→ germun: 有兴趣等上研究所後再去探讨吧 除非你大学课都修完了很闲04/22 20:56
14F:→ germun: 可以去找教授旁听一些研究所课程04/22 20:56
15F:→ germun: 如果你连研究所课程都觉得太简单了 恭喜你万中选一的人才 04/22 20:57
16F:→ germun: 找个教授签下去吧 (? 04/22 20:57
※ 编辑: nctukmdick (140.113.121.11), 04/22/2019 21:02:36
17F:→ f496328mm: model 在 sklearn 都有,这不是重点 04/22 21:46
18F:→ f496328mm: model 大家都会 call 04/22 21:47
19F:→ f496328mm: 你直接接触实务面,你就会得到答案了 04/22 21:48
20F:→ f496328mm: 单就蒐集资料来讲,你要每天更新 data、备份 04/22 21:49
21F:→ f496328mm: 确保资料正确性,然後设计API给别人call 04/22 21:49
22F:→ f496328mm: 然後清理资料,从data中找出价值 04/22 21:50
23F:→ f496328mm: 事前没有人知道怎麽做,你要自己找出方向 04/22 21:50
24F:→ f496328mm: 单就你现在的专题来说,课程结束後,作品要持续开发 04/22 21:52
25F:→ f496328mm: 不要像一堆人,专题 or paper结束後,东西就消失不见了 04/22 21:53
26F:推 TuCH: 这些只是工具 在对的地方用对的工具制造产值才有价值 04/22 22:51
27F:→ sxy67230: 还有如果你真的觉得处理资料脉络很low,那你可以往更高 04/22 23:42
28F:→ sxy67230: 的算法前进,物体识别跟NLU一堆需要突破的技术瓶颈,像 04/22 23:42
29F:→ sxy67230: 图像识别跟人类理解物体的方式仍然有差距,NLU也是。真 04/22 23:42
30F:→ sxy67230: 的觉得自己很厉害的,欢迎你来突破。 04/22 23:42
31F:推 ZuiYang: 想法跟1楼比较像,流程真的不外乎就是那几个步骤,难的是 04/23 14:20
32F:→ ZuiYang: 每个步骤都有自己的domain know how,model别人都帮你包 04/23 14:20
33F:→ ZuiYang: 好了,你说大家都可以直接call,那不就代表大家都在一个 04/23 14:20
34F:→ ZuiYang: 起跑线上,那要怎样才能赢别人呢? 04/23 14:20
35F:→ ice80712: 代码跟工程能力才是铁饭碗 04/23 16:56
36F:推 sma1033: call model人人都会,所以当然know how是在别的地方 04/23 17:20
37F:→ sma1033: 你觉得很简单,一方面也是因为你做的是没价值的事 04/23 17:21
38F:→ sma1033: 请记住一个通则:「困难的事情不一定有价值,但是简单的 04/23 17:23
39F:→ sma1033: 事情一般都没价值」,一件事会做的人多当然就没啥价值 04/23 17:24
40F:→ sma1033: 因为重点本来就不是「你能做什麽」,而是「你能赢过谁」 04/23 17:25
41F:→ hahaxd78: 你可以去试试打一场kaggle, 你就会知道你跟别人的差距在 04/23 17:32
42F:→ hahaxd78: 哪 04/23 17:32
43F:推 roccqqck: 我觉得市因为你拿到的资料都是别人处理过得 04/23 20:30
44F:→ roccqqck: 通常资料预处理就花超多时间 04/23 20:31
45F:推 thefattiger: ML/DL的理论本来就不难,核心算法的改进也轮不到你 04/23 21:39
46F:→ thefattiger: 重点在应用,那就是特定领域的知识要强了 04/23 21:39
47F:→ Kazimir: 高中生能会的事情多了 学个四年还能变大学生呢。 04/23 22:41
48F:推 erre: 博士都call package做ai了,跟上好吗… 04/24 09:51
49F:→ ice80712: 在台湾搞理论研究只会饿死 应用才是出路 04/24 11:10
50F:推 sma1033: 做个实际有用的模型来看看? 04/24 11:50
51F:推 ruokcnn: 自己写个爬虫抓资料自己做预测题目就知道了啦 04/24 17:10
52F:→ ruokcnn: 光整理资料跟想feature就可以搞死你了 04/24 17:10
53F:推 abc53: 看paper 实作paper内容也太简单吗 04/24 20:01
54F:→ abc53: 找一篇有提供原始码的paper跟着做做看 04/24 20:02
55F:推 patrick2dot0: 可以看一些paper 04/24 21:38
56F:推 patrick2dot0: 看看这领域大家在研究什麽 04/24 21:38
57F:→ lukelove: 大家都无脑call 但是有人能拿名 有人却永远铜牌等级 04/25 00:36
58F:→ sxy67230: 也没有到无脑call啦,但是确实不需要在从底层实作上来, 04/25 08:52
59F:→ sxy67230: 就像吴教授说的,有现成的干嘛不用,你自己从0开始实现 04/25 08:52
60F:→ sxy67230: ,到时候bug一堆,不如一开始就call sklearn、tensorflo 04/25 08:52
61F:→ sxy67230: w用用成熟的model,这才是正确的商业思维。要不然企业 04/25 08:52
62F:→ sxy67230: 哪里等你花时间在算法上,除非你的公司是google或deepmi 04/25 08:52
63F:→ sxy67230: nd,要不然还是多花点心思在可控的范围内,弄出漂亮的特 04/25 08:52
64F:→ sxy67230: 徵给模型方便训练。 04/25 08:52
65F:→ sxy67230: 大家都想往通用算法前进,在这领域的谁不想做出一个真 04/25 09:03
66F:→ sxy67230: 正完胜图灵测试的机器,而不是靠这些trick,但能挤进窄 04/25 09:03
67F:→ sxy67230: 门的真的少之又少,大多都是改改算法小部分不完美的部 04/25 09:03
68F:→ sxy67230: 分或是应用到不同领域上。 04/25 09:03
69F:推 liton: 特征没做好 调参调到老 04/25 15:37
70F:推 Jyery: 找coursera来看 04/25 16:44
71F:推 VIATOR: kaggle几乎都是用套件,可是不是每个人能用的一样好 04/30 04:41
72F:推 goldflower: 最近有论文是丢raw就变强惹 我们自己转换的弱弱的 04/30 15:39
73F:推 followwar: 113 DL不修吗? 05/08 13:33