Re: [问题] 矩阵的处理...拜求各位大大

时间Sun Aug 27 17:43:21 2017

※ 引述《s3714443 (metalheads)》之铭言： : http://imgur.com/a/1s7Is : 资料大概是长这样 : 我想要处理的是： : 像第八行就有两个非0的数字 : 那我就是取最左的那排 26.57这个数字 : 倒数第二排有26.43跟26.57这两个数字 : 那就是取最左边的26.43 : 反正就是特定栏之中先看有没有非0的数字，有就取最左的，没有就取0 : 然後就是mutate出来新的一行 : 我想不到除了sapply之外的办法了 : 但是我的资料有500多万笔 : sapply可能会跑到电脑烧掉ＸＤ : 感恩各位 # 资料生成 n <- 5e5 + 12 m <- 8 r <- 2 X <- matrix(0, n, m) for (i in seq(1, n - 5, by = m-r)) X[cbind(i:(i+7), m:1)] <- rnorm(1) X[cbind((n-1):n, 8:7)] <- rnorm(1) # 随机抽10000列让整列变成0 zeroLocIdx <- sample(n, 10000) X[zeroLocIdx, ] <- 0 # 程式开始 st <- proc.time() # 取出全部不等於0的位置，并以matrix矩阵表示 row跟column位置 (arr.ind) tmp <- which(X != 0, arr.ind = TRUE) # 对每一个row取最小的column index out <- tapply(tmp[ ,2], tmp[ ,1], min) # 组出位置矩阵 locMat <- cbind(row = as.integer(names(out)) , col = out) # 处理非0部分 zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1]) if (length(zeroLocIdx2) > 0) locMat <- rbind(locMat, cbind(zeroLocIdx2, 1)) # 排序 locMat <- locMat[order(locMat[ , 1]), ] # 取出值 out <- X[locMat] proc.time() - st # user system elapsed # 1.05 0.03 1.10 验证结果：http://imgur.com/QMpBoGh 验证0位置： all(zeroLocIdx2 == sort(zeroLocIdx)) # TRUE 搭配data.table的做法如下： library(data.table) # 转成data.table DT <- data.table(X) # 假设有其他栏位 DT[ , `:=`(V9 = sample(1:5, nrow(DT), TRUE), V10 = sample(LETTERS, nrow(DT), TRUE))] # 把上面的程式直接抓下来用 findValue <- function(X){ tmp <- which(X != 0, arr.ind = TRUE) minColLoc <- tapply(tmp[ ,2], tmp[ ,1], min) locMat <- cbind(row = as.integer(names(minColLoc)) , col = minColLoc) zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1]) if (length(zeroLocIdx2) > 0) locMat <- rbind(locMat, cbind(zeroLocIdx2, 1)) locMat <- locMat[order(locMat[ , 1]), ] X[locMat] } st <- proc.time() # 直接把需要的column抓出来利用do.call + cbind组成矩阵丢进去 DT[ , v := findValue(do.call(cbind, .SD)), .SDcols = V1:V8] proc.time() - st # user system elapsed # 1.04 0.04 1.09 # 验证结果 head(DT, 40) http://imgur.com/NxjaCaH -- R资料整理套件系列文： magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9 data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 125.224.109.231 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1503827007.A.D2A.html

1^F：推 s3714443: 感恩大大，想问大大为什麽处理这种大量资料有用到apply 08/27 20:49

2^F：→ s3714443: 还是可以这麽快呢！甘拜下风 08/27 20:50

我只用到tapply而已，tapply速度是还算快的XDD

3^F：推 s3714443: 所以tapply算apply家族中比较快的吗？而且我觉得只用到 08/27 21:20

4^F：→ s3714443: min这种简单函数函数来跑tapply也是关键 08/27 21:20

应该说group by somethin to do something比较难做vectorization 所以用tapply就变成是不得已去使用的情境但是背後其实也是lapply而已不过这里是有替代方案，例如先把which出来的row,column排序之後利用rle取出第一个出现该row的位置就好简单实现的程式如下： X <- matrix(c(0,0,2,0,0,0,2,0,0,0,1,1,3,2,0), 5) locMat <- which(X > 0, arr.ind = TRUE) ## 要的是第1,2,4,6列 # row col # [1,] 1 3 # [2,] 2 2 # [3,] 2 3 # [4,] 3 1 # [5,] 3 3 # [6,] 4 3 ## 利用order把row根col排序 locMat <- locMat[order(locMat[,1], -locMat[,2]), ] # row col # [1,] 1 3 # [2,] 2 3 # [3,] 2 2 # [4,] 3 3 # [5,] 3 1 # [6,] 4 3 locMat[cumsum(rle(locMat[,1])$lengths), ] # row col # [1,] 1 3 # [2,] 2 2 # [3,] 3 1 # [4,] 4 3 ※ 编辑: celestialgod (125.224.109.231), 08/27/2017 21:54:54

5^F：→ f496328mm: 如果用 apply 家族的话开平行会不会好一点?? 08/28 08:10

6^F：→ f496328mm: 像是 snow or parallel 08/28 08:11

7^F：→ f496328mm: 单就速度上来看 08/28 08:11

8^F：推 s3714443: 但是我500多万笔50几个column三分钟就跑完了超快ＸＤ 08/28 12:53

9^F：推 s3714443: 想请问c大 findValue(do.call(cbind, .SD)) 跟 08/28 13:14

10^F：→ s3714443: findValue( .SD) 差在哪？为什麽後者跑不出来？感恩 08/28 13:15

11^F：推 f496328mm: 如果你用apply家族，3分钟跑完，那开平行会更快 08/28 13:37

12^F：推 f496328mm: 不过主要是c大写的比较有效率 08/28 13:39

13^F：→ celestialgod: 开平行可能改善不多，中间还有传输问题，建议还是用 08/28 18:26

14^F：→ celestialgod: vectorization方法解决 08/28 18:26

15^F：→ celestialgod: .SD是list 要转成矩阵才能跑findValue 08/28 18:27

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

Re: [问题] 矩阵的处理...拜求各位大大

热门看板

赞助商连结