[问题] Spark平台

时间Thu Jan 10 21:08:59 2019

[问题类型]: 请把以下不需要的部份删除意见调查(我对R 有个很棒的想法，想问问大家的意见) 程式谘询(我想用R 做某件事情，但是我不知道要怎麽用R 写出来) 效能谘询(我想让R 跑更快) [软体熟悉度]: 新手(没写过程式，R 是我的第一次) [问题叙述]: 请问整理百万笔的资料用Spark有比用原本Rstudio还快吗? 看很多中文网页都说Spark可以加快速度，有没有人实作过能分享经验的>< 用笔电跑资料好慢/_\ --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.225.146.241 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1547125743.A.E75.html

1^F：→ Luluemiko: 看实际资料是多少，百万笔应该是不太能感受到有无spar 01/10 21:45

2^F：→ Luluemiko: k的差别 01/10 21:45

所以L大有用过罗!? 可以分享整理多少资料跟原本插了多少时间吗 ※ 编辑: jgj12321 (36.225.146.241), 01/10/2019 21:56:14 ※ 编辑: jgj12321 (36.225.146.241), 01/10/2019 22:04:06

3^F：→ Luluemiko: 我猜测的，没实际比过data.table跟spark的差异 01/10 23:25

4^F：→ Luluemiko: 我的看法是可以更详细描述一下使用的情境 01/10 23:27

5^F：→ Luluemiko: 比方说效能瓶颈是卡在哪一个步骤的计算 01/10 23:29

6^F：→ celestialgod: 百万笔的话 data.table还是比较快 01/11 12:23

7^F：→ celestialgod: spark主要是连到server 串接多台server才会快 01/11 12:24

8^F：→ celestialgod: 但是网路传输的速度远慢於计算 01/11 12:24

9^F：→ celestialgod: 完全划不来.... 01/11 12:24

不懂C大您的意思是说 1. 一定要多台才能Spark? 2.不懂为什麽计算速度会慢於网路传输速度，我是用100M网路，可是常常Run到10分钟以上 ※ 编辑: jgj12321 (36.225.146.241), 01/11/2019 17:20:19

10^F：→ cywhale: 就是因计算速度>网路传输，所以效能会卡在传输，除非你 01/11 17:23

11^F：推 cywhale: 你资料大到必须靠多台运算而且传输损失的时间已可以忽略 01/11 17:25

那请问有可能用云端计算跑然後传回我电脑的速度比我的电脑还快吗? 还是要实际测试才知道呢? ※ 编辑: jgj12321 (36.225.146.241), 01/11/2019 18:19:41

12^F：→ f496328mm: 真的要玩分散式，网路是重点，GOOGLE在这方面有优势 01/12 21:22

13^F：→ f496328mm: 他有自己的海底电缆，自己有网路 01/12 21:22

14^F：→ f496328mm: 100M的网路很慢，你看看你硬碟、记忆体传输多快 01/12 21:23

15^F：→ f496328mm: 分散式，多台之前怎麽联系?就是靠网路 01/12 21:23

16^F：→ f496328mm: 网路慢，算得快也没用，终究会被网速限制 01/12 21:23

17^F：→ f496328mm: 然後，不是一定要多台才能SPARK 01/12 21:24

18^F：→ f496328mm: 他就是分散式系统，你单机就违背当初概念 01/12 21:25

19^F：→ f496328mm: 跑很慢，主要原因可能是code写法、笔电弱 01/12 21:26

20^F：→ f496328mm: 同一种资料整理，不同R写法，速度可差到10倍以上 01/12 21:26

可是大大计算不是主要用CPU吗，请问跟网速有什麽关系呢... ※ 编辑: jgj12321 (118.160.78.144), 01/12/2019 21:29:54

21^F：→ f496328mm: 这样讲好了，1TB data 要建模，单一设备玩不了 01/12 21:31

22^F：→ f496328mm: 所以分散给100台电脑，去建 model 01/12 21:32

23^F：→ f496328mm: data就是要靠网路传输 01/12 21:32

24^F：→ celestialgod: 更正楼上说的，单台不见得很慢啦，原po的资料量用不 01/14 08:44

25^F：→ celestialgod: 太到spark，多台电脑的话，比较能够用上spark的powe 01/14 08:44

26^F：→ celestialgod: r，但是多台就是会有网路速度跟运算速度问题，运算 01/14 08:44

27^F：→ celestialgod: 太快剩下就会变成都在等传输。 01/14 08:44

28^F：→ celestialgod: 至於云端平台的话，传输可能要更久，因为要经过满多 01/14 08:45

29^F：→ celestialgod: 层才能到你的电脑，当然还是实际测试比较准 01/14 08:45

30^F：推 celestialgod: 还是建议原po把要解决的问题po上来，看看是不是可以 01/14 08:46

31^F：推 celestialgod: 用其他方法解决。 01/14 08:46

32^F：推 evilove: 如果只是整理资料不考虑用SQL做吗? 01/15 12:36

33^F：→ f496328mm: SQL能做的有限 01/16 02:52

34^F：→ celestialgod: SQL有时候要做到程式只要几行的逻辑可能要写很久 01/16 21:53

35^F：→ celestialgod: 而且不见得有比较好的performance 01/16 21:53

36^F：→ celestialgod: 但是SQL在处理相对简单的资料前处理还是比较方便 01/16 21:54

37^F：推 h88129: 资料大到记忆体装不下才需要资料库吧@@ 如果记忆体够其 03/29 12:26

38^F：→ h88129: 实用核心去做分散运算就好了 03/29 12:26

39^F：→ h88129: 可以尝试foreach+doparallel , 真的不行在用MPI的方式去 03/29 12:27

40^F：→ h88129: 做串接 03/29 12:27

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

[问题] Spark平台

热门看板

赞助商连结