作者jgj12321 (Creat yourself)
看板R_Language
标题[问题] Spark平台
时间Thu Jan 10 21:08:59 2019
[问题类型]:
请把以下不需要的部份删除
意见调查(我对R 有个很棒的想法,想问问大家的意见)
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
效能谘询(我想让R 跑更快)
[软体熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
请问整理百万笔的资料用Spark有比用原本Rstudio还快吗?
看很多中文网页都说Spark可以加快速度,有没有人实作过能分享经验的><
用笔电跑资料好慢/_\
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.225.146.241
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1547125743.A.E75.html
1F:→ Luluemiko: 看实际资料是多少,百万笔应该是不太能感受到有无spar 01/10 21:45
2F:→ Luluemiko: k的差别 01/10 21:45
所以L大有用过罗!? 可以分享整理多少资料跟原本插了多少时间吗
※ 编辑: jgj12321 (36.225.146.241), 01/10/2019 21:56:14
※ 编辑: jgj12321 (36.225.146.241), 01/10/2019 22:04:06
3F:→ Luluemiko: 我猜测的,没实际比过data.table跟spark的差异 01/10 23:25
4F:→ Luluemiko: 我的看法是可以更详细描述一下使用的情境 01/10 23:27
5F:→ Luluemiko: 比方说效能瓶颈是卡在哪一个步骤的计算 01/10 23:29
6F:→ celestialgod: 百万笔的话 data.table还是比较快 01/11 12:23
7F:→ celestialgod: spark主要是连到server 串接多台server才会快 01/11 12:24
8F:→ celestialgod: 但是网路传输的速度远慢於计算 01/11 12:24
9F:→ celestialgod: 完全划不来.... 01/11 12:24
不懂C大您的意思
是说
1. 一定要多台才能Spark?
2.不懂为什麽计算速度会慢於网路传输速度,我是用100M网路,可是常常Run到10分钟以上
※ 编辑: jgj12321 (36.225.146.241), 01/11/2019 17:20:19
10F:→ cywhale: 就是因计算速度>网路传输,所以效能会卡在传输,除非你 01/11 17:23
11F:推 cywhale: 你资料大到 必须靠多台运算而且传输损失的时间已可以忽略 01/11 17:25
那请问有可能用云端计算跑然後传回我电脑的速度比我的电脑还快吗?
还是要实际测试才知道呢?
※ 编辑: jgj12321 (36.225.146.241), 01/11/2019 18:19:41
12F:→ f496328mm: 真的要玩分散式,网路是重点,GOOGLE在这方面有优势 01/12 21:22
13F:→ f496328mm: 他有自己的海底电缆,自己有网路 01/12 21:22
14F:→ f496328mm: 100M的网路很慢,你看看你硬碟、记忆体传输多快 01/12 21:23
15F:→ f496328mm: 分散式,多台之前怎麽联系?就是靠网路 01/12 21:23
16F:→ f496328mm: 网路慢,算得快也没用,终究会被网速限制 01/12 21:23
17F:→ f496328mm: 然後,不是一定要多台才能SPARK 01/12 21:24
18F:→ f496328mm: 他就是分散式系统,你单机就违背当初概念 01/12 21:25
19F:→ f496328mm: 跑很慢,主要原因可能是code写法、笔电弱 01/12 21:26
20F:→ f496328mm: 同一种资料整理,不同R写法,速度可差到10倍以上 01/12 21:26
可是大大计算不是主要用CPU吗,请问跟网速有什麽关系呢...
※ 编辑: jgj12321 (118.160.78.144), 01/12/2019 21:29:54
21F:→ f496328mm: 这样讲好了,1TB data 要建模,单一设备玩不了 01/12 21:31
22F:→ f496328mm: 所以分散给100台电脑,去建 model 01/12 21:32
23F:→ f496328mm: data就是要靠网路传输 01/12 21:32
24F:→ celestialgod: 更正楼上说的,单台不见得很慢啦,原po的资料量用不 01/14 08:44
25F:→ celestialgod: 太到spark,多台电脑的话,比较能够用上spark的powe 01/14 08:44
26F:→ celestialgod: r,但是多台就是会有网路速度跟运算速度问题,运算 01/14 08:44
27F:→ celestialgod: 太快剩下就会变成都在等传输。 01/14 08:44
28F:→ celestialgod: 至於云端平台的话,传输可能要更久,因为要经过满多 01/14 08:45
29F:→ celestialgod: 层才能到你的电脑,当然还是实际测试比较准 01/14 08:45
30F:推 celestialgod: 还是建议原po把要解决的问题po上来,看看是不是可以 01/14 08:46
31F:推 celestialgod: 用其他方法解决。 01/14 08:46
32F:推 evilove: 如果只是整理资料不考虑用SQL做吗? 01/15 12:36
33F:→ f496328mm: SQL能做的有限 01/16 02:52
34F:→ celestialgod: SQL有时候要做到程式只要几行的逻辑 可能要写很久 01/16 21:53
35F:→ celestialgod: 而且不见得有比较好的performance 01/16 21:53
36F:→ celestialgod: 但是SQL在处理相对简单的资料前处理还是比较方便 01/16 21:54
37F:推 h88129: 资料大到记忆体装不下才需要资料库吧@@ 如果记忆体够 其 03/29 12:26
38F:→ h88129: 实用核心去做分散运算就好了 03/29 12:26
39F:→ h88129: 可以尝试foreach+doparallel , 真的不行在用MPI的方式去 03/29 12:27
40F:→ h88129: 做串接 03/29 12:27