作者nctukmdick (kmdick)

看板DataScience

标题

[讨论] 资料分析的门槛

时间Mon Apr 22 18:54:58 2019

小弟目前还是菜逼八大学生，最近做资料分析的专题觉得有点渺茫，感觉都是在拿套件做一些固定的流程 ex: 搜集资料、feature selection、套sklearn的model或用pytorch之类的package写一个NN, 我觉得叫一个没学过机器学习的高中生学一下python也做的出来我现在在做的事，那我学这些理论的意义到底在哪？请各位大神指点一下谢谢 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.113.121.11 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1555930500.A.6BA.html

1^F：→ sean50301: 严格上来说你只学到步骤没学到理论04/22 19:05

2^F：→ sxy67230: data scientist很多时候都在分析资料，处理资料的脉络，04/22 19:34

3^F：→ sxy67230: 了解你的资料，反而model训练都是次要的，资料前处理做04/22 19:34

4^F：→ sxy67230: 得好，用什麽方法其实没太大的差异。你还没领会到精髓，04/22 19:34

5^F：→ sxy67230: 现成的dataset都是帮你处理好的，你很难体会到。04/22 19:34

6^F：推 kokolotl: 从脏资料兜到能用的，中间省略，分析完要干嘛04/22 19:41

7^F：→ kokolotl: 前後吃经验的卡好玩04/22 19:41

8^F：→ sxy67230: 还有客户有时候给你一大坨脏资料，你问他想做什麽，他回04/22 19:55

9^F：→ sxy67230: 不知道，我想做很酷很炫又很AI的东西。客户通常的意思就04/22 19:55

10^F：→ sxy67230: 是我把资料给你，你能做出跟我心里想的一样的，跟我一04/22 19:55

11^F：→ sxy67230: 样有智慧的东西。04/22 19:55

12^F：推 germun: 因为更深的理论不是一般大学生学得会的先把大学基础学好 04/22 20:55

有修过113电信的ml跟看过林轩田的ml ，但是教的model在sklearn都有了吧@@好像最後也只要无脑call那些写好的function就好

13^F：→ germun: 有兴趣等上研究所後再去探讨吧除非你大学课都修完了很闲04/22 20:56

14^F：→ germun: 可以去找教授旁听一些研究所课程04/22 20:56

15^F：→ germun: 如果你连研究所课程都觉得太简单了恭喜你万中选一的人才 04/22 20:57

16^F：→ germun: 找个教授签下去吧 (? 04/22 20:57

※ 编辑: nctukmdick (140.113.121.11), 04/22/2019 21:02:36

17^F：→ f496328mm: model 在 sklearn 都有，这不是重点 04/22 21:46

18^F：→ f496328mm: model 大家都会 call 04/22 21:47

19^F：→ f496328mm: 你直接接触实务面，你就会得到答案了 04/22 21:48

20^F：→ f496328mm: 单就蒐集资料来讲，你要每天更新 data、备份 04/22 21:49

21^F：→ f496328mm: 确保资料正确性，然後设计API给别人call 04/22 21:49

22^F：→ f496328mm: 然後清理资料，从data中找出价值 04/22 21:50

23^F：→ f496328mm: 事前没有人知道怎麽做，你要自己找出方向 04/22 21:50

24^F：→ f496328mm: 单就你现在的专题来说，课程结束後，作品要持续开发 04/22 21:52

25^F：→ f496328mm: 不要像一堆人，专题 or paper结束後，东西就消失不见了 04/22 21:53

26^F：推 TuCH: 这些只是工具在对的地方用对的工具制造产值才有价值 04/22 22:51

27^F：→ sxy67230: 还有如果你真的觉得处理资料脉络很low，那你可以往更高 04/22 23:42

28^F：→ sxy67230: 的算法前进，物体识别跟NLU一堆需要突破的技术瓶颈，像 04/22 23:42

29^F：→ sxy67230: 图像识别跟人类理解物体的方式仍然有差距，NLU也是。真 04/22 23:42

30^F：→ sxy67230: 的觉得自己很厉害的，欢迎你来突破。 04/22 23:42

31^F：推 ZuiYang: 想法跟1楼比较像，流程真的不外乎就是那几个步骤，难的是 04/23 14:20

32^F：→ ZuiYang: 每个步骤都有自己的domain know how，model别人都帮你包 04/23 14:20

33^F：→ ZuiYang: 好了，你说大家都可以直接call，那不就代表大家都在一个 04/23 14:20

34^F：→ ZuiYang: 起跑线上，那要怎样才能赢别人呢？ 04/23 14:20

35^F：→ ice80712: 代码跟工程能力才是铁饭碗 04/23 16:56

36^F：推 sma1033: call model人人都会，所以当然know how是在别的地方 04/23 17:20

37^F：→ sma1033: 你觉得很简单，一方面也是因为你做的是没价值的事 04/23 17:21

38^F：→ sma1033: 请记住一个通则：「困难的事情不一定有价值，但是简单的 04/23 17:23

39^F：→ sma1033: 事情一般都没价值」，一件事会做的人多当然就没啥价值 04/23 17:24

40^F：→ sma1033: 因为重点本来就不是「你能做什麽」，而是「你能赢过谁」 04/23 17:25

41^F：→ hahaxd78: 你可以去试试打一场kaggle, 你就会知道你跟别人的差距在 04/23 17:32

42^F：→ hahaxd78: 哪 04/23 17:32

43^F：推 roccqqck: 我觉得市因为你拿到的资料都是别人处理过得 04/23 20:30

44^F：→ roccqqck: 通常资料预处理就花超多时间 04/23 20:31

45^F：推 thefattiger: ML/DL的理论本来就不难，核心算法的改进也轮不到你 04/23 21:39

46^F：→ thefattiger: 重点在应用，那就是特定领域的知识要强了 04/23 21:39

47^F：→ Kazimir: 高中生能会的事情多了学个四年还能变大学生呢。 04/23 22:41

48^F：推 erre: 博士都call package做ai了，跟上好吗… 04/24 09:51

49^F：→ ice80712: 在台湾搞理论研究只会饿死应用才是出路 04/24 11:10

50^F：推 sma1033: 做个实际有用的模型来看看？ 04/24 11:50

51^F：推 ruokcnn: 自己写个爬虫抓资料自己做预测题目就知道了啦 04/24 17:10

52^F：→ ruokcnn: 光整理资料跟想feature就可以搞死你了 04/24 17:10

53^F：推 abc53: 看paper 实作paper内容也太简单吗 04/24 20:01

54^F：→ abc53: 找一篇有提供原始码的paper跟着做做看 04/24 20:02

55^F：推 patrick2dot0: 可以看一些paper 04/24 21:38

56^F：推 patrick2dot0: 看看这领域大家在研究什麽 04/24 21:38

57^F：→ lukelove: 大家都无脑call 但是有人能拿名有人却永远铜牌等级 04/25 00:36

58^F：→ sxy67230: 也没有到无脑call啦，但是确实不需要在从底层实作上来， 04/25 08:52

59^F：→ sxy67230: 就像吴教授说的，有现成的干嘛不用，你自己从0开始实现 04/25 08:52

60^F：→ sxy67230: ，到时候bug一堆，不如一开始就call sklearn、tensorflo 04/25 08:52

61^F：→ sxy67230: w用用成熟的model，这才是正确的商业思维。要不然企业 04/25 08:52

62^F：→ sxy67230: 哪里等你花时间在算法上，除非你的公司是google或deepmi 04/25 08:52

63^F：→ sxy67230: nd，要不然还是多花点心思在可控的范围内，弄出漂亮的特 04/25 08:52

64^F：→ sxy67230: 徵给模型方便训练。 04/25 08:52

65^F：→ sxy67230: 大家都想往通用算法前进，在这领域的谁不想做出一个真 04/25 09:03

66^F：→ sxy67230: 正完胜图灵测试的机器，而不是靠这些trick，但能挤进窄 04/25 09:03

67^F：→ sxy67230: 门的真的少之又少，大多都是改改算法小部分不完美的部 04/25 09:03

68^F：→ sxy67230: 分或是应用到不同领域上。 04/25 09:03

69^F：推 liton: 特征没做好调参调到老 04/25 15:37

70^F：推 Jyery: 找coursera来看 04/25 16:44

71^F：推 VIATOR: kaggle几乎都是用套件，可是不是每个人能用的一样好 04/30 04:41

72^F：推 goldflower: 最近有论文是丢raw就变强惹我们自己转换的弱弱的 04/30 15:39

73^F：推 followwar: 113 DL不修吗? 05/08 13:33

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

DataScience 板

[讨论] 资料分析的门槛

热门看板

赞助商连结