Soft_Job 板


LINE

【丰云】17 年一觉大数据,老名词翻新再炒一轮 http://technews.tw/2017/06/03/big-data-taiwan/ 台湾政府过去推出许多远大口号,产业界往往是表面上不敢违逆,私底下傻眼、 嘲笑或痛骂,不过,不只政府会不断创造口号,产业界自己也一样,全球产业发 展史上,多的是无数定义不清、前景不明,连创造者自己都搞不清楚定义的口号 名词,同一个名词还会不断改名,重复炮制,产业以外的一般民众,往往被重复 糊弄了好几次,还汲汲营营的跟着喊,以为有跟上最新口号就是有远见、有大视 野,最惨的则是,连口号都已经过期了十几年,还傻傻的继续喊。 近来「大数据」与「卤肉饭」之争,就是一个这种傻劲的典范,大数据是未来? 不,大数据本身就已经是 2000 年出现的名词,光是「大数据」这 3 个字就已 有 17 年历史,而与大数据相同概念的前身名词,最早自 1959 年就已经提出, 相较之下,台湾知名、时常成为热门网路讨论话题的胡须张卤肉饭,创业於 1960 年,当时还是路边摊,也就是说,大数据比胡须张卤肉饭还要古老。 事实上,整个数据分析的概念,还可推到更久远,最起码从回归分析问世就 应该开始起算,若是如此,那历史得要往前推到史上留名的德国数学家高斯的 年代,那可是 19 世纪初的 1800 年代,台湾还要等超过一个世纪才会发明 卤肉饭(推测台湾卤肉饭是自日本时代改良品种诞生蓬莱米之後才出现, 蓬莱米发表於 1926 年)。 高斯虽然与勒壤得开启了最早的回归分析,但当时显然没有电脑,一切都是 仰赖「人脑智慧」来运算、找出数据的回归模型,没有所谓电脑演算法,所以 就把它们只算做是强调电脑运算的大数据的老祖宗。但 1959 年起,如今的 大数据概念就已经确实出现了。 十几年来两岸炒作大数据议题,只要是经历超过 20 年的资深资讯业界人士, 一听到大数据的说法,往往反射式的回应:这不就是所谓「机器学习」 (Machine Learning)或「资料探勘」(Data Mining)? 的确正是,美国人工智慧先驱亚瑟‧李‧山谬(Arthur Lee Samuel) 於 1959 年定义「机器学习」(Machine Learning),就是要发展演算法, 让电脑人工智慧能在并未事先指定特别方向或任务的情况下,从大量资料中 找出资料中的关键之处或是异常之处,可以逐步学习,并具备预测能力。跟 现在的大数据定义大同小异。 机器学习也同时是另一个名词「深度学习」(Deep Learning)的前身, 时间往後推到如今的 2016 年,产业界的运算能力使得机器学习可发挥惊人 的水准,其成就表现於 AlphaGo 以「深度学习」击败人类围棋棋士,於是 「深度学习」又一时成为当红的新名词,其实不过就是过去被遗忘的机器学习。 如今深度学习已经开始应用於许多领域卓然有成,但 1959 年时,人类掌 握的运算能力还不足以让机器学习产生太大的有意义成果,结果口号喊了以後 实质上成果有限,到 1960 年代,由於缺乏实绩,统计学家嘲笑这种不设定预 设假说、只是丢进一堆数据就想分析出成果的想法是异想天开,跟挖烂泥巴没 两样,贬称为「资料钓鱼」(data fishing)或「资料挖泥」(data dredging)。 机器学习这个名词蒙尘,遭扔进烂泥堆,但是电脑科学家的理想不变,到了 1990 年,又发明了新名词,这次叫「资料探勘」,强调从大量电脑资料中找 出关键或异常资讯的能力。其实,原本是要叫做「资料库探勘」(Database Mining) ,很不幸的是,一家加州圣地牙哥电脑公司 HNC 已经为了其产品 「资料库探勘工作站」(Database Mining Workstation)申请商标,为了避免侵 犯 HNC 商标,只好拿掉一个字,改叫资料探勘。同时还有许多其他讲法, 如「资讯收割」、「资讯发掘」、「知识萃取」等。 资料探勘这个名词风行了好几年,也的确有许多应用,譬如在台湾,健保局於 健保 IC 卡化後,利用资料探勘,察觉出诊所申报的看诊情况异常,再针对这些异 常资料的诊所进行实地检查,果然发现其中有部分诊所有诈骗健保的行迳,这就是 一个相当成功的资料探勘应用。但是,一个名词从 1990 年开始喊,到了 2000 年 已经成了 10 岁的老名词,又感觉不大新潮了。 全球的产业顾问界为了创造新流行,在 2000 年又重新发明一个新名词,把本 来就行之有年、运转顺畅、稳定发展的资料探勘,重新包装成「大数据」,2001年 ,日後由顾能(Gartner)购并的市场研究公司麦塔集团(META Group),给了 大数据「3V」的定义,强调「巨量、即时、多样」的资讯经由机器学习处理的应用 ,其实本质上与过去的机器学习、资料探勘并无二致,日後顾能又基於「3V」小幅 修改、扩充对大数据的定义,但大体上没有太大变动。 ------------------------------------------------------------ 以上的讲法并不正确: 现在的大.......数据的定义是综合以下: Google, alphago, Hadoop 生态系统, NoSQL, Python scikit-lean,Scala, R... CNN, BBC, NHK, Al Jazeera, KNN, SVM, baysian network,RL, LL, SL..... 线性回归太小了. 1990年? google 在哪? python 在哪? 没有它们, 算大数据吗? --
QR Code



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.169.232.28
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1496497071.A.CE8.html
1F:嘘 lspci: 啊就data mning啊,ptt 的资料1995年就开始拿来挖了,为什 06/03 21:48
2F:→ lspci: 麽一定要有python笑死 06/03 21:48
3F:→ testPtt: 以前很难搞出很多资料阿 系统支援容量又小 06/03 21:57
4F:→ Ekmund: 老梗是真的 这文lag也是真的 06/03 22:04
5F:推 penolove: 每个时代都有每个时代搞不定的数据量R 06/03 22:09
6F:嘘 hsnuyi: 线性回归的本质是minimization问题... 你现在所有的ML alg 06/03 22:18
7F:→ hsnuyi: o也是... 只是target function或是实作方法不同罢了 06/03 22:18
8F:推 ghmsxtwo: python跟R只是语言阿,也不一定要NoSQL阿 06/03 22:19
9F:嘘 hsnuyi: SVM是 NN也是 各种cluster analysis也是 dimension reduct 06/03 22:22
10F:→ hsnuyi: ion的各种方法 则是统计那出来的 像是PCA, factor analysi 06/03 22:22
11F:→ hsnuyi: s 了? 06/03 22:22
12F:→ Lordaeron: 啊,去回作者啊, 不敢回作者? 06/03 22:49
13F:嘘 ericrobin: 直接End 结果看到虚线以下的鬼扯 哈哈哈 06/03 22:53
14F:→ Kazimir: 以上以下都很怪啊 把碎肉加再饭上你确定历史只有这麽短? 06/03 22:58
15F:→ Ekmund: 作者喔?唉... 06/03 23:06
16F:→ Ekmund: 他不是这块专门的 他是很博闻 低产却深度的笔者 06/03 23:08
17F:→ Ekmund: 你跟他讲专门历史他一定输你的 06/03 23:09
18F:→ Ekmund: 蓝主笔的观点往往值得一看 但建议多看些平衡报导 06/03 23:09
19F:→ Lordaeron: 谁鬼扯?现在你看到的大数据,从来就没离开过哪些term. 06/03 23:29
20F:→ Lordaeron: @Ekmund,台湾很多行家, 但我不是,就麻烦你去讲了. 06/04 00:12
21F:→ pttworld: 连结文章最後扯诈骗不晓得在离题什麽。 06/04 00:27
22F:→ f496328mm: 大数据的层面很广 目前大多数都只是资料分析而已 06/04 00:50
23F:→ f496328mm: 却把资料分析包装成大数据 06/04 00:50
24F:→ f496328mm: 真正在做的 很少会讲到大数据 06/04 00:50
25F:→ f496328mm: 大部分人碰到的 光是数据就不大了 06/04 00:51
26F:→ f496328mm: 然後有些大学还推出 "大数据学程" 真的很好笑 06/04 00:51
27F:→ f496328mm: 况且 DL 是应用GPU才起飞的 以前的人怎麽做?? 06/04 00:54
28F:推 mdkn35: 网路->云端 06/04 08:10
29F:嘘 ianlin45: 目的一样,能力跟方法不一样,懂 06/04 08:32
30F:推 lovebridget: 大什麽大? 06/04 10:46
31F:嘘 exthrash: 虚线以下的结论根本鬼扯 06/04 11:38
32F:嘘 lance8537: 废文 乾脆写大鸡鸡算了 06/04 11:53
33F:嘘 elements: 背後就是数学,西元前就有了 06/04 12:05
34F:推 grimmq427532: 大数据学程,就是学相关工具和应用啊,哪里好笑 06/04 13:10
35F:→ grimmq427532: 当然你scale可能没实务那麽大,就一个叩门砖 06/04 13:11
36F:→ grimmq427532: 现在随便一笔资料都是几十几百GB,你说大不大 06/04 13:11
37F:嘘 yr: 够废 06/04 13:43
38F:嘘 jason222333: 文人多乱事 06/04 15:07
39F:→ bobju: 不管阿猫阿狗,能干掉人类围棋棋士就是阿法狗 06/04 16:26
40F:推 csfgsj: 我就知道你会被嘘,这个版不能说实话,一堆做梦的人会崩溃 06/04 18:33
41F:→ Ekmund: 防卫心别那麽重 我也确实和笔者在别人的FB小争过 06/04 21:33
42F:→ hsnuonly: 穷举法大师 06/04 22:07
43F:→ Lordaeron: @Ekmund,维护世界和平的这个重任就交给你啦. 06/04 22:29
44F:→ Ekmund: 平个鵰啊 就道不同不相为谋惹 礼敬三尺便是 06/05 02:53
45F:嘘 meteor260: 原文已经够废惹, 虚线下一个一山还有一山高的概念 06/05 10:05
46F:嘘 stitchris: 废文, 文组就会把历史翻出来拼拼凑凑, 自以爲破解了魔 06/07 13:52
47F:→ stitchris: 术般沾沾自喜.. 然後呢?? 06/07 13:52
48F:推 ruokcnn: 我觉得是现在业界过於滥用大数据一词导致门外汉根本分不 06/10 09:08
49F:→ ruokcnn: 清楚 06/10 09:08







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP