Soft_Job 板


LINE

※ 引述《hsiaotzu0505 (走啦走啦)》之铭言: : 回朔以往的学习经验, : 觉得「整理数据,得到有用结果」的过程很吸引我, : 但是已对纯物理学术研究没有兴趣,也对半导体产业没什麽兴趣。 既然你是物理出生 想必数学能力是屌打资工出生的 你所谓的整理数据得到有用的结果 就是现在最热门的Deep learning阿 从Big Data以来发展出的 data mining技巧 接着出现让机器从资料学习的machine learning技术 反正你对python有兴趣 可以尝试实作一些常见基本工具 比如说Multilayer perceptron、convolutional neural network之类的可以更有感觉 : Q:各位前辈觉得数据分析师是什麽样的工作,拥有什麽样的生活呢?是否能从什麽方面推 : 敲自己是否适合这样的工作? 今天才有八卦版问数学家的生活如何 简单说很爽阿 不用出劳力 待在电脑前动动脑和打打code而已 而且软工经验丰富的人 平均想10~20分钟才打一行code --
QR Code



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.113.250.42
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1518600293.A.D9B.html
1F:→ becca945: 坐电脑前 半小时吃一个甜甜圈 02/14 18:49
2F:推 vfgce: 你要整理什麽数据?除了物理之外,你有什麽专长? 02/14 20:10
3F:→ vfgce: 资料分析要做得好,不是只有懂分析,还要有domain knowlege 02/14 20:11
4F:推 goldflower: 依照Andrew Ng的说法 domain knowledge也会不重要啦 02/14 21:18
5F:推 vfgce: 大数据炒得太过头了,domain knowledge不重要? 02/14 21:50
6F:→ vfgce: 先看看machine learning 是不是真的'学到'什麽东西 02/14 21:50
7F:推 vfgce: 没domain knowledge的话,送一堆圾圾来做machine learn也不 02/14 21:57
8F:→ vfgce: 知道. 02/14 21:58
9F:推 goldflower: 在资料分析domain knowledge开始变不重要就是大数据啊 02/15 01:53
10F:→ goldflower: 恰好NN的强项就在於你送一堆垃圾 只要里面真的有有用 02/15 01:54
11F:→ goldflower: 的数据 他还是能学得不错 02/15 01:54
很抱歉ML第一件事就是Training Error < Testing Error 送一堆垃圾跟就乱教小朋友一样 会学到奇怪的东西 你的能学得不错应该是指Autoencoder之类的架构 但是那只能小幅度抗噪 而且主要功能只是资料压缩到较小的维度 decoder接到最後的ouput还是受Training Error限制 Deep Learning近年起来就是因为Training要三个要素在同期完成 1. 优良且大量的训练资料 光是做好data set都可以是一篇paper的主要贡献了 2. GPGPU硬体 近年才有足够强大的硬体处理如此庞大的资料 3. 数学模型 这块领域也是近年才完全成熟
12F:推 vfgce: 当你连垃圾还是有用资料都不会分时,确定有送进有用的东西? 02/15 09:23
13F:→ vfgce: 垃圾就是垃圾,送进太多绝对还是会影响结果,大数据不是大就 02/15 09:25
14F:→ vfgce: 好,你送进一堆垃圾就是在增加运算量及减少准确率. 02/15 09:26
15F:推 goldflower: 你好像没看到我的前提 "里面真的有有用的数据" 02/15 14:42
training error一开始3%是一开始就知道这些收好的资料是正确的 那又何来一堆垃圾? 还是你以为training可以一开始error50%训练完testing error可以3%?
16F:推 goldflower: 你要知道你送的是不是垃圾从error就知道了 02/15 14:44
不知道是谁说送一堆垃圾可以学得不错
17F:→ goldflower: 难道你看到error发现feature是垃圾还不懂得拿掉? 02/15 14:45
18F:→ goldflower: 还有数学模型很老了好吗... 02/15 14:45
原来2014年才出来的GAN是老模型阿 烦请阁下教敝人最新的模型是什麽?
19F:→ goldflower: 你在讲什麽东西...我轮流放feature不就知道谁垃圾 02/15 14:47
20F:→ goldflower: domain knowledge可以提早不用training就知道谁垃圾 02/15 14:48
21F:→ goldflower: 哈哈你还扯GAN 现在最有贡献的DL是GAN吗? 02/15 14:48
22F:→ goldflower: 你广告推荐用GAN做? 02/15 14:49
23F:→ goldflower: 写得不太对 不应该说贡献 而是说经济产值 02/15 14:49
24F:→ goldflower: 学得不错不代表学得最好啊 逻辑? 02/15 14:50
你一开始说NN可以送一堆垃圾能学到东西 刚刚又说发现feature是垃圾还不懂得拿掉 所以到底要送是不送搞得我很乱啊 然後说数学模型很老 发现GAN很新马上改口提贡献
25F:→ goldflower: 原本在资料量大下相对robust就是NN强项不是常识吗 02/15 14:50
26F:→ goldflower: 我也没说NN无敌啊 但andrew ng就是说以现在的发展 02/15 14:51
27F:→ goldflower: 来说这些domain knowledge的东西会渐渐都被取代掉 02/15 14:51
28F:→ goldflower: 你可以送慢慢拿掉啊 逻辑? 资料分析第一反应是GAN? 02/15 14:52
29F:→ goldflower: 我都不懂你到底对资料分析是想用在哪里了 02/15 14:53
说数学模型很老 提一个新的又说没用 逻辑?
30F:→ goldflower: 所以你对资料分析第一反应是GAN 笑死 02/15 14:54
31F:→ goldflower: 人家就是想做现在市面上的资料分析 然後这方面的数学 02/15 14:55
是阿是阿 说别人的数学模型很老 自己提了一个198X年就有得模型 逻辑?
32F:→ goldflower: 模型很老没错啊 然後你说GAN很新 还真的很会跳 02/15 14:56
33F:→ goldflower: 你到底在跳什麽...看不懂 198x不老? 02/15 14:57
34F:→ goldflower: 你现在又跳去概念了 不是在讲资料分析的数学模型吗XD 02/15 14:59
奇怪了 是谁说error差可以拿掉不要送NN的? 逻辑?
35F:→ goldflower: 要拔掉资料我还以为是常识 几年出来的概念还真的笑死 02/15 15:00
36F:→ goldflower: 反正比起跳跳人 还是信andrew吧 02/15 15:01
37F:推 goldflower: 我讲拔feature 你在讲hard negative data mining 02/15 15:05
38F:→ goldflower: 你还是继续跳吧 02/15 15:05
39F:→ goldflower: 当然我猜你又要讲我上面说拔资料了 你还是往上看一点 02/15 15:06
一开始手动拔feature 送进去不就是training error小 连自己是做training data set都不知道? 加油 继续跳针
40F:→ goldflower: 而且domain knowledge我还真不知跟这个有啥关系 02/15 15:07
41F:→ goldflower: 越跳越往外 不知道在干嘛 我还是来去训练我的模型 02/15 15:07
是阿 不知道是谁说 垃圾送NN可以学到东西 但是前提是做过处理feature喔 好笑
42F:→ goldflower: ...我真的觉得你中文有很大的进步空间 02/15 15:08
43F:推 goldflower: 哈哈哈 我快不行了 你还真的第一句就读错 02/15 15:11
不知道是谁的中文不好最一开始说垃圾可以送NN 然後改口要拔feature 逻辑? 现在已经一堆在用GAN做广告 预测使用者行为 甚至连点击网页位置都会预测 让广告区块放在网页的哪个区块会让使用者最想关注 这种有in-out-in预测的不就是GAN强项? GAN最大的贡献就是幅减少传统NN动不动就需要十万笔的training data set 另外像是mean-teacher这些让原本per-trained model提升准确度的模型也是近年才出现 ※ 编辑: Sidney0503 (140.113.250.42), 02/15/2018 15:44:29
44F:推 goldflower: 如果现在GAN的确有广泛运用在广告上那我的确孤陋寡闻 02/15 16:00
45F:→ goldflower: 但是你前面仍旧没看懂我所说的 拔feature这件事有 02/15 16:01
46F:→ goldflower: domain knowledge的人可以不用train就做 02/15 16:01
47F:→ goldflower: 但andrew的说法就是这个步骤会被NN取代 02/15 16:02
48F:→ goldflower: 然後建模的方式有domain knowledge的人可以做 02/15 16:02
49F:→ goldflower: 但是一样NN可以扮演这个角色 02/15 16:03
50F:→ goldflower: 我其实前面在说的就只是这麽简单的事情 02/15 16:03
51F:→ goldflower: 所以是不是垃圾你train的时候就能发现 回头拔feature 02/15 16:05
52F:→ goldflower: 我是觉得蛮直观的啊 02/15 16:05
53F:推 goldflower: 当然其实他讲的这块我是认为大部分在描述supervised 02/15 16:07
54F:推 vfgce: 即使machine learning的模型准确率高,也不代表真的有学到 02/15 16:07
55F:→ vfgce: 有意义的东西,如何选择feature本来就是门学问, 02/15 16:08
56F:→ vfgce: 一堆机器学习论文根本都绕着准确率在打转,但到底学到什麽却 02/15 16:09
57F:→ vfgce: 没有解释. 02/15 16:10
58F:→ vfgce: 为什麽?不就一堆人没有domain knowledge,拿到资料就先做, 02/15 16:11
59F:推 goldflower: 是啊 所以现在其实有些论文的开始朝这部分的metric 02/15 16:11
60F:→ goldflower: 去分析 但是其实只有部分问题可以做 02/15 16:12
61F:→ vfgce: 有好的结果就发表,但这东西能不能用?有没有意义都没法回答. 02/15 16:12
62F:→ goldflower: 说实在的很多feature有用也是事後解释 02/15 16:12
63F:推 vfgce: 事後解释没有关系,重点还是要有domain knowledge才有辨法.. 02/15 16:17
64F:→ vfgce: 不然做了一个准确率很高的模型,结果被内行人笑说没意义... 02/15 16:18
65F:推 goldflower: 有没有意义是test说话 不是内行人说没意义就没意义吧 02/15 16:19
66F:→ vfgce: 就我懂的领域,就看过不少预测的feature根本就common sense. 02/15 16:19
67F:→ vfgce: 一个说血糖值预测糖尿病很准的模型有什麽意义? 02/15 16:21
68F:→ goldflower: 比如你可能做了一个人类觉得非常合理的模型 02/15 16:21
69F:→ vfgce: 可是一堆纯资工人却做的很高兴. 02/15 16:21
70F:→ goldflower: 喔...你说的那个已经是不同的问题了 02/15 16:21
71F:推 vfgce: 那有什麽不同,就是domain knowledge不会不重要,起码可减少 02/15 16:24
72F:→ vfgce: 做笨事的机会.... 02/15 16:24
73F:推 Ommm5566: 阿法狗表示:他们在争甚麽 02/15 16:24
74F:推 Muscovy: 在争下棋以外的东西... 02/15 16:25
75F:→ Ommm5566: 阿法狗现在在练星海 也在做医疗学习 02/15 16:28
76F:推 goldflower: 但是请domain knowledge的价格跟import keras价格不同 02/15 16:28
77F:→ goldflower: 请个import keras的慢慢从现有feature挑 以现在的计算 02/15 16:29
78F:→ goldflower: 资源来说也许还比较值得 02/15 16:31
79F:→ goldflower: 我觉得前处理比较式微 但是NN架构怎麽串比较有用 02/15 16:32
80F:推 Ommm5566: 跟楼上说的一样 现在就一堆资料训练师 听起来很帅 02/15 16:32
81F:→ goldflower: 比如可以知道哪个资料该串去哪一层比较合理之类的 02/15 16:32
82F:→ goldflower: 阿发现在星海不是蛮弱的 不过应该还是赢我 02/15 16:33
83F:→ Ommm5566: 我怎麽记得GOOGLE有一支是可以写NN的AI 02/15 16:33
84F:→ Ommm5566: 选择layer的接法比人做出来的还好 02/15 16:33
85F:→ Ommm5566: 资工人怎麽老是努力让自己失业 02/15 16:33
86F:→ goldflower: 最近reinforcement也越来越潮啊 各种减少训练时间 02/15 16:34
87F:→ goldflower: 所以AI大成第一个失业的就是写AI的 02/15 16:35
88F:→ angusyu: 这年代口号最重要,其他都假的 搞老半天没人失业 02/15 16:56
89F:推 waypin2002: 各种炒作 等着搓泡泡 02/15 22:46







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP