作者ching0629 (Syameroke)
看板PhD
标题Re: [问题] 人工智慧 数学or资工
时间Sat Apr 7 13:23:05 2018
我想提出一个新的观点,那就是未来想要从事人工智慧相关事业的人的不是应该在『数理
』以及『编程』两者中二选一,而是两者兼备外加『领域知识』,而我认为主要专业的选
择在上述任何方向都可以,而困难的在除了主专业之外还必须对另外两者进行持续的加强
。
各位试想一下最近人工智慧的关键突破发生的背景,我想大家都可以接受2012年在ILSVRC
一举夺冠的AlexNet是引爆关键,而我们思考一下它成功的背後关键是甚麽?
是演算法吗? (所谓的数学?)
显然不是,他使用的演算法在1980年代就已经被提出了。
是编程能力? (所谓的资工?)
部分是,但关键是在於对GPU的编程能力以及足够强大的GPU支持。
如果都不是,那关键是甚麽?显而易见的是关键是『数据』,在人工智能领域,我们公认
『演算法』是引擎,而『软体及硬体』是工厂,『数据』则是石油,而石油才是真正稀缺
的资源。
在ILSVRC之前不是没有图像辨识挑战赛,只是以前数据不足,数据才是这波革命的关键。
当你了解到了这一点,你就应该知道掌握数据,我这里要把『领域知识』的定义稍微扩充
,你必须把『数据』的产生算成领域知识的一部分,现在要投入此领域的人大多忽视了数
据的重要性。
我希望想要投入这个领域的人必须从数据优先的角度来思考,而这个角度势必必须先决定
你希望做出什麽样子的人工智慧。
假设你未来是想进入一般业界(Google等级的当我没说),那你要知道现在新创公司/事业
群比的都是数据,很少有公司能『完全使用公开数据』做出自己的核心服务,并且同时确
保自己的竞争优势,就连Google、Amazon的核心竞争优势也是依靠自己累积的数据。
举例来说你想做智慧医疗,我认为先把自己搞进医院比什麽都重要。
而如果你还没决定,只觉得人工智慧很潮想要投入,那我认为也是选择资工相关科系而不
是数学相关科系,至少有许多资料的蒐集需要的是编程能力而非数理能力。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 219.85.128.60
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PhD/M.1523078588.A.4FD.html
1F:→ gogopacer: 数据我没想过 之前练习时是拿网路上找的到的04/07 16:53
2F:→ gogopacer: 不过要赢别人就是要有别人没有的数据满有道理04/07 16:54
3F:→ gogopacer: 感谢回复04/07 16:55
4F:推 followwar: 同一个MODEL 用GOOGLE的内部dataset train就低imagenet 04/07 21:48
5F:→ followwar: 几个点04/07 21:48
这说明了资料品质的重要性。事实上我的经验告诉我预测准确度80%来自资料,20%来自演
算法。
再补充几点为什麽业界更希望掌握资料而非演算法:
1. 演算法概念非常容易被抄,对台湾小公司而言一个核心研发人员被挖直接带走,而资
料相对不容易带走,也有法律保障。
2. 资料的累积是先行者的优势,後继者难以追上前者累积的资料,且随着用户越来越多
搜集速率也会有明显区别。
6F:推 marsdaddy: 同意此观点。有些人预测未来中国的AI发展可能会比美国04/07 22:05
7F:→ marsdaddy: 更先进,最主要的推论理由来自於中国13亿人产生的data04/07 22:06
8F:→ marsdaddy: 很可观,以那样规模的big data做基础,AI发展将更快速 04/07 22:08
9F:→ saltlake: 数据可靠度呢?04/07 23:01
数据可靠度很大一部分也取决於领域知识,你的搜集方式是否存在潜在bias直接影响到资
料品质,而这需要的绝非数学、编程等能力。
我特别想强调的就是大家往往更重视演算法而忘了资料的重要性,imagenet的初期完全找
不到资金就是因为大家觉得这研究没什麽价值(看起来就像标注资料而已),但事实证明
他才是推动进步的核心关键。
※ 编辑: ching0629 (219.85.128.60), 04/08/2018 09:05:46
10F:推 mmonkeyboyy: 是cea领域啊XD data 因为中国data相对好取得.... 04/08 09:48
11F:→ mmonkeyboyy: CE领域才是 本来就是硬体在推动的 04/08 09:48
12F:→ mmonkeyboyy: AI BIG DATA IOT 这三样 如果能参透 都是一件事 04/08 09:49
13F:→ geniusturtle: 把自己搞进医院很简单啊 04/08 12:05
14F:推 mmonkeyboyy: imagenet 根据李飞飞自己说法 她也是边做边出这个 04/08 12:11
15F:→ mmonkeyboyy: 想法 去收集 label 04/08 12:12
16F:→ mmonkeyboyy: 我们常开玩笑 最後都是拼体力 还是当运动员好了 04/08 12:12
17F:→ mmonkeyboyy: A G两公司最近一直把一堆东西放低价请大家用 04/08 12:16
18F:→ mmonkeyboyy: 请多仔细看那个条例 就是为了XXX 04/08 12:16
19F:推 Altair: 推 重要的观点 04/08 17:00
20F:推 becherovka: 此文点出重点 04/09 09:52
21F:推 faerie: 推 04/15 01:01
22F:推 mdkn35: 类似imagenet的资料不公开 一堆影像辨识的都只能吃土啊... 04/16 22:40