作者celestialgod (攸蓝)
看板R_Language
标题Re: [问题] Loop for rbind,table
时间Thu Apr 23 14:22:10 2015
这篇刚好来试试看资料处理顺序跟dplyr, tidyr等工具对於资料整理能力的差异
根据原PO的问题,总共要做三个动作:
1. 去掉只出现一个类别的遭利
2. 列出最小比例的类别以及比例
3. 合并成一张variabel对类别的表格
先试试看三个动作分开做(preprocess_f),然後合并做(preprocess_f2)
接着用tidyr, dplyr试试看(preprocess_f3),最後一起比较速度。
PS: 这里就没测试tidyr, dplyr分开做了,让我偷懒一下XD
程式连结:
http://pastebin.com/PTzXdf3K
这里只放结果:
st = proc.time()
t1 = preprocess_f(dat)
proc.time() - st
# user system elapsed
# 47.80 0.42 47.39
st = proc.time()
t2 = preprocess_f2(dat)
proc.time() - st
# user system elapsed
# 40.35 0.23 40.03
st = proc.time()
t3 = preprocess_f3(dat)
proc.time() - st
# user system elapsed
# 13.85 0.00 13.89
在这个例子中,资料处理顺序可以有效缩短时间
但是用对工具可以获得更好的效果!
补上:全程最高只用掉500M的记忆体
环境:windows 7 64 bit, R-3.2.0 (置换RRO的Rblas.dll and Rlapack.dll)
[email protected], DDR3-2400 16G ram
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.225.239.69
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1429770132.A.CBB.html
1F:推 cywhale: got new tips!! thanks for sharing 04/23 23:16
※ 编辑: celestialgod (36.225.239.69), 04/23/2015 23:21:32
2F:推 sinclairJ: 感谢你 04/24 09:21