作者mulkcs (mulkcs)
看板Cognitive
标题[新闻] IBM首席科学家林清咏谈Big data
时间Thu Aug 27 18:20:10 2015
IBM首席科学家林清咏:Hadoop热潮不再,Spark爆红,大资料未来关键基础是图学
http://www.ithome.com.tw/news/98285?fb_action_ids=10153138498388927&
IBM首席科学家林清咏认为,要在多样化的资料中找出相关性,关键在於资料之间的网络
关系(Network)和图学(Graph),图学将是大资料未来的关键基础,如何快速将多样性
的资料串连,找出关联性,也是大资料要解决的关键问题。
文/辜腾玉 | 2015-08-27发表
现在大资料非用不可的分析工具是什麽?如果只知道Hadoop就落伍了,IBM首席科学家、
负责IBM华生研究中心连结大资料部门,同时也在哥伦比亚大学开了最热门的大资料分析
课程的林清咏表示,大资料技术演变速度之快,每年都有很大的变化,去年还不需要提到
Apache Spark架构,但是今年教大资料分析技术,不教Spark就落伍了。
Apache Spark是一个开源的丛集运算框架,采用了记忆体内运算技术(In-memory),由
於可以用较少的节点数量,达到比Hadoop的MapReduce还高的执行效能,在这一、两年内
快速窜起,变得非常受欢迎。
而近几年热门的大资料技术Hadoop,林清咏却认为热潮已经不再,尽管Hadoop在过去10前
不断提供新的管理工具,也形成了庞大的生态系,但是Hadoop基本上已经是十几年前的产
品,考虑的是当时容量小且昂贵的记忆体和储存空间等硬体条件,现在这些硬体技术前进
,林清咏认为,10年前所考虑的软体和架构不见得还适用。
以硬体面的进展来看,因为GPU的出现与发展,大幅提升运算效能,林清咏表示,GPU可用
几千个核心来进行分散式平行处理,运算概念和过去使用CPU的思维已经截然不同,因此
,不需要使用Hadoop,也能执行大规模的运算。
9成5的企业其实不需要用Hadoop
根据他带领的IBM研究团队采用Hadoop的经验,最後常常因为运算效能不够好而浪费时间
,此外,他也提到,由於Hadoop架构需要3倍的储存空间,企业在采用时,常常会提出硬
碟成本太高的问题。
他观察,目前已经拥有大量资料的企业其实不多,但很多企业要导入大资料专案时,会盲
目的采用如Hadoop这样的大资料平台,他说,有些企业会在多台机器上部署Hadoop,但可
能每一台机器都只使用了百分之二十的效能,据他估计,有高达9成5的企业,在采用
Hadoop之後发现,其实根本使用不到。
林清咏在纽约待了20年,目前负责IBM华生研究中心System G团队,研究图运算(Graph
Computing)中的连结大资料(Linked Big Data)领域,也是三个大资料研究计画的首席
研究员,带领由超过40位博士级研究员组成的全球IBM研究实验室,以及包括20位以上来
自10多所大学的教授及研究员的团队。他也从2005年开始於哥伦比亚大学担任兼职教授,
去年开了一堂大资料分析课程,现在这门课修课学生超过三百人,是哥伦比亚大学内最受
欢迎的一门课,修课学生跨资讯、统计及各个系所。
图学是大资料未来的关键基础,也是需要解决的问题
林清咏近日回台湾在2015资料科学爱好者年会上分享了大资料的演进与发展,他认为,图
学(Graph)是大资料接下来发展的关键基础,要解决多样化资料的关联性问题。
他说,大资料从2001年左右就出现,以前企业要采用大资料技术的首要问题是,资料要储
存在哪里,怎麽快速分析资料,而这些问题不是单一硬体或技术可以解决的,当时大资料
所需的各项技术都还没到位,这就是为什麽大资料在十年前红不起来的原因之一。
让大资料现在变得热门且必需的原因,林清咏认为,除了各项技术的进步之外,由於现在
越来越多各式各样的资料能够被存取,每个人的行为和感测器的资料都可以被蒐集,而且
储存容量变得越来越便宜,储存的资料不需要丢掉。此外,以前光是跟储存厂商买资料库
服务,就得花费不少成本,且传统资料库有处理线上问题的限制,而现在多了开源软体的
选择。
以技术面来看,大资料背後的技术包括大规模平行运算、大量资料储存空间、资料分布、
高速网路、高效能运算、运算工作及执行绪管理、资料采矿与分析等技术,林清咏说,当
这些技术都已经越来越成熟之後,大资料才能演变成今天这样。
而在技术成熟之下,林清咏认为,在大资料架构与扩充性问题上,必须要考虑的2大问题
,分别为Scale out(水平扩充)和Scale up(垂直扩充),在Scale out需考虑的是,如
何运用大量资源及平行运算来处理资料,通常会发生更高的资料延迟性,而Scale up的做
法,则是要让同一个机器的运算效果提升,发挥最大价值。
林清咏分别从大资料的3个特点(3V)来谈发展现况,其中,在大量(Volume)及快速(
Velocity)这2个特性,都已经有许多成熟的解决方案可采用,如要处理大量资时,可以
采用Hadoop、Spark或是GPU来处理,要追求速度快的话,可以采用即时性的串流平台,像
是IBM的InfoSphere Streams或是Spark上的Stream平台,强调可以处理即时性(
Real-time)资料,第3个特点多样性(Variety),则是接下来大资料技术需要被解决的
问题。
他认为,要在多样化的资料中找出相关性,关键在於资料之间的网络关系(Network)和
图学(Graph),在学术界称为网路科学,业界则称作图运算(Graph Computing),怎麽
快速将资料串连,找出关联性,他说,近几年内几乎所有大资料、资料采矿、资料库的研
讨会,或是学术单位都一直在探讨如何解决这个问题,IBM也一直在研究图运算。
他提到,以前超级电脑用Top 500当作评价指标,以每秒可运算多少资料量来排名,从
2010年左右开始,业界及学术界才逐渐理解,运算量不一定是最重要的,在有些应用案例
中,更重要的指标是超级电脑每秒可以搜寻到、找到多少相关的资料,然後把这些资料储
存出来。因此,超级电脑社群才开始使用有Graph 500的评价指标。
林清咏指出,IBM团队目前所处理到的Graph规模,超过8兆个节点(Node),串连出256兆
个边的关系(Edge),远高於Facebook由超过10亿个使用者的社交Graph,而Twitter在
2012年的Graph规模大约是1亿2千万个节点,20亿个边。
在硬体方面,IBM发展了大约4年,其中一项SyNAPSE计画,是要打造出大脑晶片(Brain
chip),希望最终达到人脑1百万个神经元(Neuron),2亿5千6百万个突触(Synapse)
的规模,根据2年前的资料显示,当时的Graph的复杂度规模已经达到猫的等级,要达到人
脑的规模还要好几年,不过,Graph规模达到之後,如何用来计算和处理也会是个问题。
免费释出开源工具,加速台湾资料分析技术发展
林清咏现场展示了IBM System G团队进行的一项大脑网路分析计画(Brain Network
Analytics),分析老鼠在观看不同图像时,脑部神经网络的反应情形,包括之间的关联
性,以及对什麽图像会产生反应。早期的研究已经知道哪些神经元对应到哪些反应,而最
终则是希望能知道同时刺激哪些神经元,可以产生不同记忆。
他也说,大部分的大资料都是互相连结的,称作Linked Big Data,目前Linked Big Data
研究的几个重要方向,包括如何记忆、储存相关的资料,此外,Linked Big Data可以使
用其他的查询语言(Query Language),不再是C语言。林清咏同时也宣布,System G团
队要将免费释出开源的基础图学工具(systemg.research.ibm.com),提供各式各样的图
学工具,让大家可以在平台上建置各式各样的应用,希望能加速台湾在资料分析领域的脚
步,催生出更多应用。
--
http://static4.ithome.com.tw/sites/default/files/images/IMAG1570.jpg
IBM首席科学家林清咏表示,在大资料架构与扩充性问题上,必须要考虑的2大问题,分别
为Scale out(水平扩充)和Scaele up(垂直扩充),在Scale out需考虑的是,如何运
用大量资源及平行运算来处理资料,通常会发生更高的资料延迟性,而Scale up的做法,
则是要让同一个机器的运算效果提升,发挥最大价值。
http://static4.ithome.com.tw/sites/default/files/images/IMAG1578.jpg
IBM首席科学家林清咏认为,要在多样化的资料中找出相关性,关键在於是资料之间的网
络关系(Network)和图学(Graph),在学术界称为网路科学,业界则称作图运算(
Graph Computing),而这也是接下来大资料要解决的问题,怎麽快速将资料串连,找出
关联性,他说,一直到2013年左右,几乎所有大资料、资料采矿、资料库的研讨会,或是
学术单位都一直在探讨如何解决这个问题,IBM也一直在研究图运算。
http://static4.ithome.com.tw/sites/default/files/images/IMAG1592(1).jpg
IBM首席科学家林清咏指出,IBM团队目前所处理到的Graph规模,超过8兆个节点(Node)
,串连出256兆个边的关系(Edge),远高於Facebook由超过10亿个使用者的社交Graph,
而Twitter在2012年的Graph规模大约是1亿2千万个节点,20亿个边。
http://static4.ithome.com.tw/sites/default/files/images/IMAG1606.jpg
IBM首席科学家林清咏现场展示了IBM System G团队进行的一项大脑网路分析计画(
Brain Network Analytics),分析老鼠在观看不同图像时,脑部神经网络的反应情形,
包括之间的关联性,以及对什麽图像会产生反应。早期的研究已经知道哪些神经元对应到
哪些反应,而最终则是希望能知道同时刺激哪些神经元,可以产生不同记忆。
http://static4.ithome.com.tw/sites/default/files/images/IMAG1611-001.jpg
IBM首席科学家林清咏宣布,System G团队要将基础的图学工具以Open Sourse的方式免费
开放出来(systemg.research.ibm.com),提供各式各样的工具,让大家可以在平台上建
置各式各样的应用,希望能加速台湾在资料分析领域的脚步,催生出更多应用。
--
蛮有趣的.
後面的Synapse计画, 应该就是neurocomputational big data的尖端研究了.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 134.58.253.57
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Cognitive/M.1440670812.A.BC1.html
※ 编辑: mulkcs (134.58.253.57), 08/27/2015 18:21:23
1F:→ recorriendo: 专业名称应该是neuromorphic computing 08/27 19:41
2F:→ recorriendo: 就是在硬体层面逼近神经系统 08/27 19:42
3F:→ recorriendo: 至於第二个提到的脑的图学分析 就类似connectome了 08/27 19:42
4F:→ mulkcs: 我很好奇 目前台湾有哪个lab有再做类似的研究吗? 08/27 21:02
5F:→ recorriendo: 台大电机江介宏老师之前听说有想朝neuromorphic发展 08/28 10:51
6F:→ recorriendo: 不知道有没有成果? 08/28 10:51