作者ching0629 (Syameroke)
看板PhD
標題Re: [問題] 人工智慧 數學or資工
時間Sat Apr 7 13:23:05 2018
我想提出一個新的觀點,那就是未來想要從事人工智慧相關事業的人的不是應該在『數理
』以及『編程』兩者中二選一,而是兩者兼備外加『領域知識』,而我認為主要專業的選
擇在上述任何方向都可以,而困難的在除了主專業之外還必須對另外兩者進行持續的加強
。
各位試想一下最近人工智慧的關鍵突破發生的背景,我想大家都可以接受2012年在ILSVRC
一舉奪冠的AlexNet是引爆關鍵,而我們思考一下它成功的背後關鍵是甚麼?
是演算法嗎? (所謂的數學?)
顯然不是,他使用的演算法在1980年代就已經被提出了。
是編程能力? (所謂的資工?)
部分是,但關鍵是在於對GPU的編程能力以及足夠強大的GPU支持。
如果都不是,那關鍵是甚麼?顯而易見的是關鍵是『數據』,在人工智能領域,我們公認
『演算法』是引擎,而『軟體及硬體』是工廠,『數據』則是石油,而石油才是真正稀缺
的資源。
在ILSVRC之前不是沒有圖像辨識挑戰賽,只是以前數據不足,數據才是這波革命的關鍵。
當你了解到了這一點,你就應該知道掌握數據,我這裡要把『領域知識』的定義稍微擴充
,你必須把『數據』的產生算成領域知識的一部分,現在要投入此領域的人大多忽視了數
據的重要性。
我希望想要投入這個領域的人必須從數據優先的角度來思考,而這個角度勢必必須先決定
你希望做出什麼樣子的人工智慧。
假設你未來是想進入一般業界(Google等級的當我沒說),那你要知道現在新創公司/事業
群比的都是數據,很少有公司能『完全使用公開數據』做出自己的核心服務,並且同時確
保自己的競爭優勢,就連Google、Amazon的核心競爭優勢也是依靠自己累積的數據。
舉例來說你想做智慧醫療,我認為先把自己搞進醫院比什麼都重要。
而如果你還沒決定,只覺得人工智慧很潮想要投入,那我認為也是選擇資工相關科系而不
是數學相關科系,至少有許多資料的蒐集需要的是編程能力而非數理能力。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.85.128.60
※ 文章網址: https://webptt.com/m.aspx?n=bbs/PhD/M.1523078588.A.4FD.html
1F:→ gogopacer: 數據我沒想過 之前練習時是拿網路上找的到的04/07 16:53
2F:→ gogopacer: 不過要贏別人就是要有別人沒有的數據滿有道理04/07 16:54
3F:→ gogopacer: 感謝回復04/07 16:55
4F:推 followwar: 同一個MODEL 用GOOGLE的內部dataset train就低imagenet 04/07 21:48
5F:→ followwar: 幾個點04/07 21:48
這說明了資料品質的重要性。事實上我的經驗告訴我預測準確度80%來自資料,20%來自演
算法。
再補充幾點為什麼業界更希望掌握資料而非演算法:
1. 演算法概念非常容易被抄,對台灣小公司而言一個核心研發人員被挖直接帶走,而資
料相對不容易帶走,也有法律保障。
2. 資料的累積是先行者的優勢,後繼者難以追上前者累積的資料,且隨著用戶越來越多
搜集速率也會有明顯區別。
6F:推 marsdaddy: 同意此觀點。有些人預測未來中國的AI發展可能會比美國04/07 22:05
7F:→ marsdaddy: 更先進,最主要的推論理由來自於中國13億人產生的data04/07 22:06
8F:→ marsdaddy: 很可觀,以那樣規模的big data做基礎,AI發展將更快速 04/07 22:08
9F:→ saltlake: 數據可靠度呢?04/07 23:01
數據可靠度很大一部分也取決於領域知識,你的搜集方式是否存在潛在bias直接影響到資
料品質,而這需要的絕非數學、編程等能力。
我特別想強調的就是大家往往更重視演算法而忘了資料的重要性,imagenet的初期完全找
不到資金就是因為大家覺得這研究沒什麼價值(看起來就像標註資料而已),但事實證明
他才是推動進步的核心關鍵。
※ 編輯: ching0629 (219.85.128.60), 04/08/2018 09:05:46
10F:推 mmonkeyboyy: 是cea領域啊XD data 因為中國data相對好取得.... 04/08 09:48
11F:→ mmonkeyboyy: CE領域才是 本來就是硬體在推動的 04/08 09:48
12F:→ mmonkeyboyy: AI BIG DATA IOT 這三樣 如果能參透 都是一件事 04/08 09:49
13F:→ geniusturtle: 把自己搞進醫院很簡單啊 04/08 12:05
14F:推 mmonkeyboyy: imagenet 根據李飛飛自己說法 她也是邊做邊出這個 04/08 12:11
15F:→ mmonkeyboyy: 想法 去收集 label 04/08 12:12
16F:→ mmonkeyboyy: 我們常開玩笑 最後都是拼體力 還是當運動員好了 04/08 12:12
17F:→ mmonkeyboyy: A G兩公司最近一直把一堆東西放低價請大家用 04/08 12:16
18F:→ mmonkeyboyy: 請多仔細看那個條例 就是為了XXX 04/08 12:16
19F:推 Altair: 推 重要的觀點 04/08 17:00
20F:推 becherovka: 此文點出重點 04/09 09:52
21F:推 faerie: 推 04/15 01:01
22F:推 mdkn35: 類似imagenet的資料不公開 一堆影像辨識的都只能吃土啊... 04/16 22:40