作者Sidney0503 (Sidney0503)

看板Soft_Job

标题

Re: [请益] 先工作还是先念书

时间Wed Feb 14 17:24:50 2018

※ 引述《hsiaotzu0505 (走啦走啦)》之铭言： : 回朔以往的学习经验， : 觉得「整理数据，得到有用结果」的过程很吸引我， : 但是已对纯物理学术研究没有兴趣，也对半导体产业没什麽兴趣。既然你是物理出生想必数学能力是屌打资工出生的你所谓的整理数据得到有用的结果就是现在最热门的Deep learning阿从Big Data以来发展出的 data mining技巧接着出现让机器从资料学习的machine learning技术反正你对python有兴趣可以尝试实作一些常见基本工具比如说Multilayer perceptron、convolutional neural network之类的可以更有感觉 : Q:各位前辈觉得数据分析师是什麽样的工作，拥有什麽样的生活呢？是否能从什麽方面推 : 敲自己是否适合这样的工作？今天才有八卦版问数学家的生活如何简单说很爽阿不用出劳力待在电脑前动动脑和打打code而已而且软工经验丰富的人平均想10~20分钟才打一行code --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.113.250.42 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1518600293.A.D9B.html

1^F：→ becca945: 坐电脑前半小时吃一个甜甜圈 02/14 18:49

2^F：推 vfgce: 你要整理什麽数据?除了物理之外,你有什麽专长? 02/14 20:10

3^F：→ vfgce: 资料分析要做得好,不是只有懂分析,还要有domain knowlege 02/14 20:11

4^F：推 goldflower: 依照Andrew Ng的说法 domain knowledge也会不重要啦 02/14 21:18

5^F：推 vfgce: 大数据炒得太过头了,domain knowledge不重要? 02/14 21:50

6^F：→ vfgce: 先看看machine learning 是不是真的'学到'什麽东西 02/14 21:50

7^F：推 vfgce: 没domain knowledge的话,送一堆圾圾来做machine learn也不 02/14 21:57

8^F：→ vfgce: 知道. 02/14 21:58

9^F：推 goldflower: 在资料分析domain knowledge开始变不重要就是大数据啊 02/15 01:53

10^F：→ goldflower: 恰好NN的强项就在於你送一堆垃圾只要里面真的有有用 02/15 01:54

11^F：→ goldflower: 的数据他还是能学得不错 02/15 01:54

很抱歉ML第一件事就是Training Error < Testing Error 送一堆垃圾跟就乱教小朋友一样会学到奇怪的东西你的能学得不错应该是指Autoencoder之类的架构但是那只能小幅度抗噪而且主要功能只是资料压缩到较小的维度 decoder接到最後的ouput还是受Training Error限制 Deep Learning近年起来就是因为Training要三个要素在同期完成 1. 优良且大量的训练资料光是做好data set都可以是一篇paper的主要贡献了 2. GPGPU硬体近年才有足够强大的硬体处理如此庞大的资料 3. 数学模型这块领域也是近年才完全成熟

12^F：推 vfgce: 当你连垃圾还是有用资料都不会分时,确定有送进有用的东西? 02/15 09:23

13^F：→ vfgce: 垃圾就是垃圾,送进太多绝对还是会影响结果,大数据不是大就 02/15 09:25

14^F：→ vfgce: 好,你送进一堆垃圾就是在增加运算量及减少准确率. 02/15 09:26

15^F：推 goldflower: 你好像没看到我的前提 "里面真的有有用的数据" 02/15 14:42

training error一开始3%是一开始就知道这些收好的资料是正确的那又何来一堆垃圾? 还是你以为training可以一开始error50%训练完testing error可以3%?

16^F：推 goldflower: 你要知道你送的是不是垃圾从error就知道了 02/15 14:44

不知道是谁说送一堆垃圾可以学得不错

17^F：→ goldflower: 难道你看到error发现feature是垃圾还不懂得拿掉? 02/15 14:45

18^F：→ goldflower: 还有数学模型很老了好吗... 02/15 14:45

原来2014年才出来的GAN是老模型阿烦请阁下教敝人最新的模型是什麽?

19^F：→ goldflower: 你在讲什麽东西...我轮流放feature不就知道谁垃圾 02/15 14:47

20^F：→ goldflower: domain knowledge可以提早不用training就知道谁垃圾 02/15 14:48

21^F：→ goldflower: 哈哈你还扯GAN 现在最有贡献的DL是GAN吗? 02/15 14:48

22^F：→ goldflower: 你广告推荐用GAN做? 02/15 14:49

23^F：→ goldflower: 写得不太对不应该说贡献而是说经济产值 02/15 14:49

24^F：→ goldflower: 学得不错不代表学得最好啊逻辑? 02/15 14:50

你一开始说NN可以送一堆垃圾能学到东西刚刚又说发现feature是垃圾还不懂得拿掉所以到底要送是不送搞得我很乱啊然後说数学模型很老发现GAN很新马上改口提贡献

25^F：→ goldflower: 原本在资料量大下相对robust就是NN强项不是常识吗 02/15 14:50

26^F：→ goldflower: 我也没说NN无敌啊但andrew ng就是说以现在的发展 02/15 14:51

27^F：→ goldflower: 来说这些domain knowledge的东西会渐渐都被取代掉 02/15 14:51

28^F：→ goldflower: 你可以送慢慢拿掉啊逻辑? 资料分析第一反应是GAN? 02/15 14:52

29^F：→ goldflower: 我都不懂你到底对资料分析是想用在哪里了 02/15 14:53

说数学模型很老提一个新的又说没用逻辑?

30^F：→ goldflower: 所以你对资料分析第一反应是GAN 笑死 02/15 14:54

31^F：→ goldflower: 人家就是想做现在市面上的资料分析然後这方面的数学 02/15 14:55

是阿是阿说别人的数学模型很老自己提了一个198X年就有得模型逻辑?

32^F：→ goldflower: 模型很老没错啊然後你说GAN很新还真的很会跳 02/15 14:56

33^F：→ goldflower: 你到底在跳什麽...看不懂 198x不老? 02/15 14:57

34^F：→ goldflower: 你现在又跳去概念了不是在讲资料分析的数学模型吗XD 02/15 14:59

奇怪了是谁说error差可以拿掉不要送NN的? 逻辑?

35^F：→ goldflower: 要拔掉资料我还以为是常识几年出来的概念还真的笑死 02/15 15:00

36^F：→ goldflower: 反正比起跳跳人还是信andrew吧 02/15 15:01

37^F：推 goldflower: 我讲拔feature 你在讲hard negative data mining 02/15 15:05

38^F：→ goldflower: 你还是继续跳吧 02/15 15:05

39^F：→ goldflower: 当然我猜你又要讲我上面说拔资料了你还是往上看一点 02/15 15:06

一开始手动拔feature 送进去不就是training error小连自己是做training data set都不知道? 加油继续跳针

40^F：→ goldflower: 而且domain knowledge我还真不知跟这个有啥关系 02/15 15:07

41^F：→ goldflower: 越跳越往外不知道在干嘛我还是来去训练我的模型 02/15 15:07

是阿不知道是谁说垃圾送NN可以学到东西但是前提是做过处理feature喔好笑

42^F：→ goldflower: ...我真的觉得你中文有很大的进步空间 02/15 15:08

43^F：推 goldflower: 哈哈哈我快不行了你还真的第一句就读错 02/15 15:11

不知道是谁的中文不好最一开始说垃圾可以送NN 然後改口要拔feature 逻辑? 现在已经一堆在用GAN做广告预测使用者行为甚至连点击网页位置都会预测让广告区块放在网页的哪个区块会让使用者最想关注这种有in-out-in预测的不就是GAN强项? GAN最大的贡献就是幅减少传统NN动不动就需要十万笔的training data set 另外像是mean-teacher这些让原本per-trained model提升准确度的模型也是近年才出现 ※ 编辑: Sidney0503 (140.113.250.42), 02/15/2018 15:44:29

44^F：推 goldflower: 如果现在GAN的确有广泛运用在广告上那我的确孤陋寡闻 02/15 16:00

45^F：→ goldflower: 但是你前面仍旧没看懂我所说的拔feature这件事有 02/15 16:01

46^F：→ goldflower: domain knowledge的人可以不用train就做 02/15 16:01

47^F：→ goldflower: 但andrew的说法就是这个步骤会被NN取代 02/15 16:02

48^F：→ goldflower: 然後建模的方式有domain knowledge的人可以做 02/15 16:02

49^F：→ goldflower: 但是一样NN可以扮演这个角色 02/15 16:03

50^F：→ goldflower: 我其实前面在说的就只是这麽简单的事情 02/15 16:03

51^F：→ goldflower: 所以是不是垃圾你train的时候就能发现回头拔feature 02/15 16:05

52^F：→ goldflower: 我是觉得蛮直观的啊 02/15 16:05

53^F：推 goldflower: 当然其实他讲的这块我是认为大部分在描述supervised 02/15 16:07

54^F：推 vfgce: 即使machine learning的模型准确率高,也不代表真的有学到 02/15 16:07

55^F：→ vfgce: 有意义的东西,如何选择feature本来就是门学问, 02/15 16:08

56^F：→ vfgce: 一堆机器学习论文根本都绕着准确率在打转,但到底学到什麽却 02/15 16:09

57^F：→ vfgce: 没有解释. 02/15 16:10

58^F：→ vfgce: 为什麽?不就一堆人没有domain knowledge,拿到资料就先做, 02/15 16:11

59^F：推 goldflower: 是啊所以现在其实有些论文的开始朝这部分的metric 02/15 16:11

60^F：→ goldflower: 去分析但是其实只有部分问题可以做 02/15 16:12

61^F：→ vfgce: 有好的结果就发表,但这东西能不能用?有没有意义都没法回答. 02/15 16:12

62^F：→ goldflower: 说实在的很多feature有用也是事後解释 02/15 16:12

63^F：推 vfgce: 事後解释没有关系,重点还是要有domain knowledge才有辨法.. 02/15 16:17

64^F：→ vfgce: 不然做了一个准确率很高的模型,结果被内行人笑说没意义... 02/15 16:18

65^F：推 goldflower: 有没有意义是test说话不是内行人说没意义就没意义吧 02/15 16:19

66^F：→ vfgce: 就我懂的领域,就看过不少预测的feature根本就common sense. 02/15 16:19

67^F：→ vfgce: 一个说血糖值预测糖尿病很准的模型有什麽意义? 02/15 16:21

68^F：→ goldflower: 比如你可能做了一个人类觉得非常合理的模型 02/15 16:21

69^F：→ vfgce: 可是一堆纯资工人却做的很高兴. 02/15 16:21

70^F：→ goldflower: 喔...你说的那个已经是不同的问题了 02/15 16:21

71^F：推 vfgce: 那有什麽不同,就是domain knowledge不会不重要,起码可减少 02/15 16:24

72^F：→ vfgce: 做笨事的机会.... 02/15 16:24

73^F：推 Ommm5566: 阿法狗表示：他们在争甚麽 02/15 16:24

74^F：推 Muscovy: 在争下棋以外的东西... 02/15 16:25

75^F：→ Ommm5566: 阿法狗现在在练星海也在做医疗学习 02/15 16:28

76^F：推 goldflower: 但是请domain knowledge的价格跟import keras价格不同 02/15 16:28

77^F：→ goldflower: 请个import keras的慢慢从现有feature挑以现在的计算 02/15 16:29

78^F：→ goldflower: 资源来说也许还比较值得 02/15 16:31

79^F：→ goldflower: 我觉得前处理比较式微但是NN架构怎麽串比较有用 02/15 16:32

80^F：推 Ommm5566: 跟楼上说的一样现在就一堆资料训练师听起来很帅 02/15 16:32

81^F：→ goldflower: 比如可以知道哪个资料该串去哪一层比较合理之类的 02/15 16:32

82^F：→ goldflower: 阿发现在星海不是蛮弱的不过应该还是赢我 02/15 16:33

83^F：→ Ommm5566: 我怎麽记得GOOGLE有一支是可以写NN的AI 02/15 16:33

84^F：→ Ommm5566: 选择layer的接法比人做出来的还好 02/15 16:33

85^F：→ Ommm5566: 资工人怎麽老是努力让自己失业 02/15 16:33

86^F：→ goldflower: 最近reinforcement也越来越潮啊各种减少训练时间 02/15 16:34

87^F：→ goldflower: 所以AI大成第一个失业的就是写AI的 02/15 16:35

88^F：→ angusyu: 这年代口号最重要，其他都假的搞老半天没人失业 02/15 16:56

89^F：推 waypin2002: 各种炒作等着搓泡泡 02/15 22:46

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Soft_Job 板

Re: [请益] 先工作还是先念书

热门看板

赞助商连结