作者celestialgod (天)
看板R_Language
标题Re: [问题] 矩阵的处理...拜求各位大大
时间Sun Aug 27 17:43:21 2017
※ 引述《s3714443 (metalheads)》之铭言:
: http://imgur.com/a/1s7Is
: 资料大概是长这样
: 我想要处理的是:
: 像第八行就有两个非0的数字
: 那我就是取最左的那排 26.57这个数字
: 倒数第二排有26.43跟26.57这两个数字
: 那就是取最左边的26.43
: 反正就是 特定栏之中 先看有没有非0的数字,有就取最左的,没有就取0
: 然後就是mutate出来新的一行
: 我想不到除了sapply之外的办法了
: 但是我的资料有500多万笔
: sapply可能会跑到电脑烧掉XD
: 感恩各位
# 资料生成
n <- 5e5 + 12
m <- 8
r <- 2
X <- matrix(0, n, m)
for (i in seq(1, n - 5, by = m-r))
X[cbind(i:(i+7), m:1)] <- rnorm(1)
X[cbind((n-1):n, 8:7)] <- rnorm(1)
# 随机抽10000列让整列变成0
zeroLocIdx <- sample(n, 10000)
X[zeroLocIdx, ] <- 0
# 程式开始
st <- proc.time()
# 取出全部不等於0的位置,并以matrix矩阵表示 row跟column位置 (arr.ind)
tmp <- which(X != 0, arr.ind = TRUE)
# 对每一个row取最小的column index
out <- tapply(tmp[ ,2], tmp[ ,1], min)
# 组出位置矩阵
locMat <- cbind(row = as.integer(names(out)) , col = out)
# 处理非0部分
zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1])
if (length(zeroLocIdx2) > 0)
locMat <- rbind(locMat, cbind(zeroLocIdx2, 1))
# 排序
locMat <- locMat[order(locMat[ , 1]), ]
# 取出值
out <- X[locMat]
proc.time() - st
# user system elapsed
# 1.05 0.03 1.10
验证结果:
http://imgur.com/QMpBoGh
验证0位置: all(zeroLocIdx2 == sort(zeroLocIdx)) # TRUE
搭配data.table的做法如下:
library(data.table)
# 转成data.table
DT <- data.table(X)
# 假设有其他栏位
DT[ , `:=`(V9 = sample(1:5, nrow(DT), TRUE),
V10 = sample(LETTERS, nrow(DT), TRUE))]
# 把上面的程式直接抓下来用
findValue <- function(X){
tmp <- which(X != 0, arr.ind = TRUE)
minColLoc <- tapply(tmp[ ,2], tmp[ ,1], min)
locMat <- cbind(row = as.integer(names(minColLoc)) , col = minColLoc)
zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1])
if (length(zeroLocIdx2) > 0)
locMat <- rbind(locMat, cbind(zeroLocIdx2, 1))
locMat <- locMat[order(locMat[ , 1]), ]
X[locMat]
}
st <- proc.time()
# 直接把需要的column抓出来利用do.call + cbind组成矩阵丢进去
DT[ , v := findValue(do.call(cbind, .SD)), .SDcols = V1:V8]
proc.time() - st
# user system elapsed
# 1.04 0.04 1.09
# 验证结果
head(DT, 40)
http://imgur.com/NxjaCaH
--
R资料整理套件系列文:
magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9
data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue
dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b
tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz
pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.224.109.231
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1503827007.A.D2A.html
1F:推 s3714443: 感恩大大,想问大大为什麽处理这种大量资料有用到apply 08/27 20:49
2F:→ s3714443: 还是可以这麽快呢!甘拜下风 08/27 20:50
我只用到tapply而已,tapply速度是还算快的XDD
3F:推 s3714443: 所以tapply算apply家族中比较快的吗?而且我觉得只用到 08/27 21:20
4F:→ s3714443: min这种简单函数函数来跑tapply也是关键 08/27 21:20
应该说group by somethin to do something比较难做vectorization
所以用tapply就变成是不得已去使用的情境
但是背後其实也是lapply而已
不过这里是有替代方案,例如先把which出来的row,column排序之後
利用rle取出第一个出现该row的位置就好
简单实现的程式如下:
X <- matrix(c(0,0,2,0,0,0,2,0,0,0,1,1,3,2,0), 5)
locMat <- which(X > 0, arr.ind = TRUE)
## 要的是第1,2,4,6列
# row col
# [1,] 1 3
# [2,] 2 2
# [3,] 2 3
# [4,] 3 1
# [5,] 3 3
# [6,] 4 3
## 利用order把row根col排序
locMat <- locMat[order(locMat[,1], -locMat[,2]), ]
# row col
# [1,] 1 3
# [2,] 2 3
# [3,] 2 2
# [4,] 3 3
# [5,] 3 1
# [6,] 4 3
locMat[cumsum(rle(locMat[,1])$lengths), ]
# row col
# [1,] 1 3
# [2,] 2 2
# [3,] 3 1
# [4,] 4 3
※ 编辑: celestialgod (125.224.109.231), 08/27/2017 21:54:54
5F:→ f496328mm: 如果用 apply 家族的话 开平行会不会好一点?? 08/28 08:10
6F:→ f496328mm: 像是 snow or parallel 08/28 08:11
7F:→ f496328mm: 单就速度上来看 08/28 08:11
8F:推 s3714443: 但是我500多万笔50几个column三分钟就跑完了 超快XD 08/28 12:53
9F:推 s3714443: 想请问c大 findValue(do.call(cbind, .SD)) 跟 08/28 13:14
10F:→ s3714443: findValue( .SD) 差在哪? 为什麽後者跑不出来? 感恩 08/28 13:15
11F:推 f496328mm: 如果你用apply家族,3分钟跑完,那开平行会更快 08/28 13:37
12F:推 f496328mm: 不过主要是c大写的比较有效率 08/28 13:39
13F:→ celestialgod: 开平行可能改善不多,中间还有传输问题,建议还是用 08/28 18:26
14F:→ celestialgod: vectorization方法解决 08/28 18:26
15F:→ celestialgod: .SD是list 要转成矩阵才能跑findValue 08/28 18:27