Soft_Job 板


LINE

※ 引述《hsiaotzu0505 (走啦走啦)》之銘言: : 回朔以往的學習經驗, : 覺得「整理數據,得到有用結果」的過程很吸引我, : 但是已對純物理學術研究沒有興趣,也對半導體產業沒什麼興趣。 既然你是物理出生 想必數學能力是屌打資工出生的 你所謂的整理數據得到有用的結果 就是現在最熱門的Deep learning阿 從Big Data以來發展出的 data mining技巧 接著出現讓機器從資料學習的machine learning技術 反正你對python有興趣 可以嘗試實作一些常見基本工具 比如說Multilayer perceptron、convolutional neural network之類的可以更有感覺 : Q:各位前輩覺得數據分析師是什麼樣的工作,擁有什麼樣的生活呢?是否能從什麼方面推 : 敲自己是否適合這樣的工作? 今天才有八卦版問數學家的生活如何 簡單說很爽阿 不用出勞力 待在電腦前動動腦和打打code而已 而且軟工經驗豐富的人 平均想10~20分鐘才打一行code --
QR Code



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.113.250.42
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Soft_Job/M.1518600293.A.D9B.html
1F:→ becca945: 坐電腦前 半小時吃一個甜甜圈 02/14 18:49
2F:推 vfgce: 你要整理什麼數據?除了物理之外,你有什麼專長? 02/14 20:10
3F:→ vfgce: 資料分析要做得好,不是只有懂分析,還要有domain knowlege 02/14 20:11
4F:推 goldflower: 依照Andrew Ng的說法 domain knowledge也會不重要啦 02/14 21:18
5F:推 vfgce: 大數據炒得太過頭了,domain knowledge不重要? 02/14 21:50
6F:→ vfgce: 先看看machine learning 是不是真的'學到'什麼東西 02/14 21:50
7F:推 vfgce: 沒domain knowledge的話,送一堆圾圾來做machine learn也不 02/14 21:57
8F:→ vfgce: 知道. 02/14 21:58
9F:推 goldflower: 在資料分析domain knowledge開始變不重要就是大數據啊 02/15 01:53
10F:→ goldflower: 恰好NN的強項就在於你送一堆垃圾 只要裡面真的有有用 02/15 01:54
11F:→ goldflower: 的數據 他還是能學得不錯 02/15 01:54
很抱歉ML第一件事就是Training Error < Testing Error 送一堆垃圾跟就亂教小朋友一樣 會學到奇怪的東西 你的能學得不錯應該是指Autoencoder之類的架構 但是那只能小幅度抗噪 而且主要功能只是資料壓縮到較小的維度 decoder接到最後的ouput還是受Training Error限制 Deep Learning近年起來就是因為Training要三個要素在同期完成 1. 優良且大量的訓練資料 光是做好data set都可以是一篇paper的主要貢獻了 2. GPGPU硬體 近年才有足夠強大的硬體處理如此龐大的資料 3. 數學模型 這塊領域也是近年才完全成熟
12F:推 vfgce: 當你連垃圾還是有用資料都不會分時,確定有送進有用的東西? 02/15 09:23
13F:→ vfgce: 垃圾就是垃圾,送進太多絕對還是會影響結果,大數據不是大就 02/15 09:25
14F:→ vfgce: 好,你送進一堆垃圾就是在增加運算量及減少準確率. 02/15 09:26
15F:推 goldflower: 你好像沒看到我的前提 "裡面真的有有用的數據" 02/15 14:42
training error一開始3%是一開始就知道這些收好的資料是正確的 那又何來一堆垃圾? 還是你以為training可以一開始error50%訓練完testing error可以3%?
16F:推 goldflower: 你要知道你送的是不是垃圾從error就知道了 02/15 14:44
不知道是誰說送一堆垃圾可以學得不錯
17F:→ goldflower: 難道你看到error發現feature是垃圾還不懂得拿掉? 02/15 14:45
18F:→ goldflower: 還有數學模型很老了好嗎... 02/15 14:45
原來2014年才出來的GAN是老模型阿 煩請閣下教敝人最新的模型是什麼?
19F:→ goldflower: 你在講什麼東西...我輪流放feature不就知道誰垃圾 02/15 14:47
20F:→ goldflower: domain knowledge可以提早不用training就知道誰垃圾 02/15 14:48
21F:→ goldflower: 哈哈你還扯GAN 現在最有貢獻的DL是GAN嗎? 02/15 14:48
22F:→ goldflower: 你廣告推薦用GAN做? 02/15 14:49
23F:→ goldflower: 寫得不太對 不應該說貢獻 而是說經濟產值 02/15 14:49
24F:→ goldflower: 學得不錯不代表學得最好啊 邏輯? 02/15 14:50
你一開始說NN可以送一堆垃圾能學到東西 剛剛又說發現feature是垃圾還不懂得拿掉 所以到底要送是不送搞得我很亂啊 然後說數學模型很老 發現GAN很新馬上改口提貢獻
25F:→ goldflower: 原本在資料量大下相對robust就是NN強項不是常識嗎 02/15 14:50
26F:→ goldflower: 我也沒說NN無敵啊 但andrew ng就是說以現在的發展 02/15 14:51
27F:→ goldflower: 來說這些domain knowledge的東西會漸漸都被取代掉 02/15 14:51
28F:→ goldflower: 你可以送慢慢拿掉啊 邏輯? 資料分析第一反應是GAN? 02/15 14:52
29F:→ goldflower: 我都不懂你到底對資料分析是想用在哪裡了 02/15 14:53
說數學模型很老 提一個新的又說沒用 邏輯?
30F:→ goldflower: 所以你對資料分析第一反應是GAN 笑死 02/15 14:54
31F:→ goldflower: 人家就是想做現在市面上的資料分析 然後這方面的數學 02/15 14:55
是阿是阿 說別人的數學模型很老 自己提了一個198X年就有得模型 邏輯?
32F:→ goldflower: 模型很老沒錯啊 然後你說GAN很新 還真的很會跳 02/15 14:56
33F:→ goldflower: 你到底在跳什麼...看不懂 198x不老? 02/15 14:57
34F:→ goldflower: 你現在又跳去概念了 不是在講資料分析的數學模型嗎XD 02/15 14:59
奇怪了 是誰說error差可以拿掉不要送NN的? 邏輯?
35F:→ goldflower: 要拔掉資料我還以為是常識 幾年出來的概念還真的笑死 02/15 15:00
36F:→ goldflower: 反正比起跳跳人 還是信andrew吧 02/15 15:01
37F:推 goldflower: 我講拔feature 你在講hard negative data mining 02/15 15:05
38F:→ goldflower: 你還是繼續跳吧 02/15 15:05
39F:→ goldflower: 當然我猜你又要講我上面說拔資料了 你還是往上看一點 02/15 15:06
一開始手動拔feature 送進去不就是training error小 連自己是做training data set都不知道? 加油 繼續跳針
40F:→ goldflower: 而且domain knowledge我還真不知跟這個有啥關係 02/15 15:07
41F:→ goldflower: 越跳越往外 不知道在幹嘛 我還是來去訓練我的模型 02/15 15:07
是阿 不知道是誰說 垃圾送NN可以學到東西 但是前提是做過處理feature喔 好笑
42F:→ goldflower: ...我真的覺得你中文有很大的進步空間 02/15 15:08
43F:推 goldflower: 哈哈哈 我快不行了 你還真的第一句就讀錯 02/15 15:11
不知道是誰的中文不好最一開始說垃圾可以送NN 然後改口要拔feature 邏輯? 現在已經一堆在用GAN做廣告 預測使用者行為 甚至連點擊網頁位置都會預測 讓廣告區塊放在網頁的哪個區塊會讓使用者最想關注 這種有in-out-in預測的不就是GAN強項? GAN最大的貢獻就是幅減少傳統NN動不動就需要十萬筆的training data set 另外像是mean-teacher這些讓原本per-trained model提升準確度的模型也是近年才出現 ※ 編輯: Sidney0503 (140.113.250.42), 02/15/2018 15:44:29
44F:推 goldflower: 如果現在GAN的確有廣泛運用在廣告上那我的確孤陋寡聞 02/15 16:00
45F:→ goldflower: 但是你前面仍舊沒看懂我所說的 拔feature這件事有 02/15 16:01
46F:→ goldflower: domain knowledge的人可以不用train就做 02/15 16:01
47F:→ goldflower: 但andrew的說法就是這個步驟會被NN取代 02/15 16:02
48F:→ goldflower: 然後建模的方式有domain knowledge的人可以做 02/15 16:02
49F:→ goldflower: 但是一樣NN可以扮演這個角色 02/15 16:03
50F:→ goldflower: 我其實前面在說的就只是這麼簡單的事情 02/15 16:03
51F:→ goldflower: 所以是不是垃圾你train的時候就能發現 回頭拔feature 02/15 16:05
52F:→ goldflower: 我是覺得蠻直觀的啊 02/15 16:05
53F:推 goldflower: 當然其實他講的這塊我是認為大部分在描述supervised 02/15 16:07
54F:推 vfgce: 即使machine learning的模型準確率高,也不代表真的有學到 02/15 16:07
55F:→ vfgce: 有意義的東西,如何選擇feature本來就是門學問, 02/15 16:08
56F:→ vfgce: 一堆機器學習論文根本都繞著準確率在打轉,但到底學到什麼卻 02/15 16:09
57F:→ vfgce: 沒有解釋. 02/15 16:10
58F:→ vfgce: 為什麼?不就一堆人沒有domain knowledge,拿到資料就先做, 02/15 16:11
59F:推 goldflower: 是啊 所以現在其實有些論文的開始朝這部分的metric 02/15 16:11
60F:→ goldflower: 去分析 但是其實只有部分問題可以做 02/15 16:12
61F:→ vfgce: 有好的結果就發表,但這東西能不能用?有沒有意義都沒法回答. 02/15 16:12
62F:→ goldflower: 說實在的很多feature有用也是事後解釋 02/15 16:12
63F:推 vfgce: 事後解釋沒有關係,重點還是要有domain knowledge才有辨法.. 02/15 16:17
64F:→ vfgce: 不然做了一個準確率很高的模型,結果被內行人笑說沒意義... 02/15 16:18
65F:推 goldflower: 有沒有意義是test說話 不是內行人說沒意義就沒意義吧 02/15 16:19
66F:→ vfgce: 就我懂的領域,就看過不少預測的feature根本就common sense. 02/15 16:19
67F:→ vfgce: 一個說血糖值預測糖尿病很準的模型有什麼意義? 02/15 16:21
68F:→ goldflower: 比如你可能做了一個人類覺得非常合理的模型 02/15 16:21
69F:→ vfgce: 可是一堆純資工人卻做的很高興. 02/15 16:21
70F:→ goldflower: 喔...你說的那個已經是不同的問題了 02/15 16:21
71F:推 vfgce: 那有什麼不同,就是domain knowledge不會不重要,起碼可減少 02/15 16:24
72F:→ vfgce: 做笨事的機會.... 02/15 16:24
73F:推 Ommm5566: 阿法狗表示:他們在爭甚麼 02/15 16:24
74F:推 Muscovy: 在爭下棋以外的東西... 02/15 16:25
75F:→ Ommm5566: 阿法狗現在在練星海 也在做醫療學習 02/15 16:28
76F:推 goldflower: 但是請domain knowledge的價格跟import keras價格不同 02/15 16:28
77F:→ goldflower: 請個import keras的慢慢從現有feature挑 以現在的計算 02/15 16:29
78F:→ goldflower: 資源來說也許還比較值得 02/15 16:31
79F:→ goldflower: 我覺得前處理比較式微 但是NN架構怎麼串比較有用 02/15 16:32
80F:推 Ommm5566: 跟樓上說的一樣 現在就一堆資料訓練師 聽起來很帥 02/15 16:32
81F:→ goldflower: 比如可以知道哪個資料該串去哪一層比較合理之類的 02/15 16:32
82F:→ goldflower: 阿發現在星海不是蠻弱的 不過應該還是贏我 02/15 16:33
83F:→ Ommm5566: 我怎麼記得GOOGLE有一支是可以寫NN的AI 02/15 16:33
84F:→ Ommm5566: 選擇layer的接法比人做出來的還好 02/15 16:33
85F:→ Ommm5566: 資工人怎麼老是努力讓自己失業 02/15 16:33
86F:→ goldflower: 最近reinforcement也越來越潮啊 各種減少訓練時間 02/15 16:34
87F:→ goldflower: 所以AI大成第一個失業的就是寫AI的 02/15 16:35
88F:→ angusyu: 這年代口號最重要,其他都假的 搞老半天沒人失業 02/15 16:56
89F:推 waypin2002: 各種炒作 等著搓泡泡 02/15 22:46







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:e-shopping站內搜尋

TOP