作者Wush978 (拒看低质媒体)
看板R_Language
标题Re: [分享] R tips: data.table
时间Sat May 11 11:23:12 2013
出处
http://stackoverflow.com/questions/11486369/growing-a-data-frame-in-a-memory-efficient-manner
这篇文章探讨要如何有效率一笔一笔的增加资料的数量。
一般用`data.frame`的作法:
```r
res <- data.frame(x=rep(NA,1000), y=rep(NA,1000))
tracemem(res)
for(i in 1:1000) {
res[i,"x"] <- runif(1)
res[i,"y"] <- rnorm(1)
}
```
ps. 之前我不知道`tracemem`这个指令,所以才需要用C 来印记忆体位置
`tracemem`会在记忆体被复制的时候,印出讯息
可以看到每次`[<-` 都会复制记忆体,导致当res 是很大的data.frame时效能低落
( 在我现在要处理的资料上,res 有600000 rows... )
目前我也完全不知道有什麽R 的方法,可以在增加资料上避免data.frame的复制。
( 所以我之前都写Rcpp来对付这个问题,但是就是增加我的coding 量... )
直到我膝盖中了一箭,看到data.table和这篇文章。
```r
library(data.table)
dt <- data.table(x=rep(0,1000), y=rep(0,1000))
tracemem(dt)
for(i in 1:1000) {
dt[i,x := runif(1)]
dt[i,y := rnorm(1)]
}
# note no mesage from tracemem
```
在我的资料上,利用data.table的效能提升至少十倍。
※ 引述《Wush978 (拒看低质媒体)》之铭言:
: [关键字]: R, large scale data
: [出处]: http://cran.r-project.org/web/packages/data.table/index.html
: [重点摘要]:
: data.table很适合在资料很大的时候取代data.frame:
: 我并没有很详细的研究底层和其他特性,但是至少data.table支援以下两个功能:
: - 支援in memory indexing
: - 支援modification in place
: 这让我今天在处理大量资料时,效能大大提升。
: 存取时间下降,记忆体使用量也下降。
: 所以在此分享这个套件,给所有记忆体吃紧的版友们。
--
欢迎加入 Taiwan R User Group :
http://www.facebook.com/Tw.R.User
我们每周一都有在「政大公企中心(台北市金华街187号)西楼WB05」
举办Machine Learning / Data Mining Monday:
报名
http://www.meetup.com/Taiwan-R/
聚会影片
https://www.youtube.com/user/TWuseRGroup
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 114.45.149.151
1F:推 memphis:看你的code, 看不出有什麽特别之处, 所以是特异功能? 05/11 12:30
2F:→ memphis:一般来说如果是顺序性的塞资料, 的确是不会一个一个assign 05/11 12:31
3F:→ memphis:所以两个都是stupid code的情况下, 只能归因於data.table 05/11 12:33
4F:→ memphis:用index的方式 加快i的搜寻? 05/11 12:34
5F:→ Wush978:在data.frame的版本,每个回圈都会new 一个data.frame 05/11 13:10
6F:→ Wush978:在data.table的版本,不会 05/11 13:10