R_Language 板


LINE

※ 引述《s3714443 (metalheads)》之銘言: : http://imgur.com/a/1s7Is : 資料大概是長這樣 : 我想要處理的是: : 像第八行就有兩個非0的數字 : 那我就是取最左的那排 26.57這個數字 : 倒數第二排有26.43跟26.57這兩個數字 : 那就是取最左邊的26.43 : 反正就是 特定欄之中 先看有沒有非0的數字,有就取最左的,沒有就取0 : 然後就是mutate出來新的一行 : 我想不到除了sapply之外的辦法了 : 但是我的資料有500多萬筆 : sapply可能會跑到電腦燒掉XD : 感恩各位 # 資料生成 n <- 5e5 + 12 m <- 8 r <- 2 X <- matrix(0, n, m) for (i in seq(1, n - 5, by = m-r)) X[cbind(i:(i+7), m:1)] <- rnorm(1) X[cbind((n-1):n, 8:7)] <- rnorm(1) # 隨機抽10000列讓整列變成0 zeroLocIdx <- sample(n, 10000) X[zeroLocIdx, ] <- 0 # 程式開始 st <- proc.time() # 取出全部不等於0的位置,並以matrix矩陣表示 row跟column位置 (arr.ind) tmp <- which(X != 0, arr.ind = TRUE) # 對每一個row取最小的column index out <- tapply(tmp[ ,2], tmp[ ,1], min) # 組出位置矩陣 locMat <- cbind(row = as.integer(names(out)) , col = out) # 處理非0部分 zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1]) if (length(zeroLocIdx2) > 0) locMat <- rbind(locMat, cbind(zeroLocIdx2, 1)) # 排序 locMat <- locMat[order(locMat[ , 1]), ] # 取出值 out <- X[locMat] proc.time() - st # user system elapsed # 1.05 0.03 1.10 驗證結果:http://imgur.com/QMpBoGh 驗證0位置: all(zeroLocIdx2 == sort(zeroLocIdx)) # TRUE 搭配data.table的做法如下: library(data.table) # 轉成data.table DT <- data.table(X) # 假設有其他欄位 DT[ , `:=`(V9 = sample(1:5, nrow(DT), TRUE), V10 = sample(LETTERS, nrow(DT), TRUE))] # 把上面的程式直接抓下來用 findValue <- function(X){ tmp <- which(X != 0, arr.ind = TRUE) minColLoc <- tapply(tmp[ ,2], tmp[ ,1], min) locMat <- cbind(row = as.integer(names(minColLoc)) , col = minColLoc) zeroLocIdx2 <- setdiff(1:nrow(X), locMat[ , 1]) if (length(zeroLocIdx2) > 0) locMat <- rbind(locMat, cbind(zeroLocIdx2, 1)) locMat <- locMat[order(locMat[ , 1]), ] X[locMat] } st <- proc.time() # 直接把需要的column抓出來利用do.call + cbind組成矩陣丟進去 DT[ , v := findValue(do.call(cbind, .SD)), .SDcols = V1:V8] proc.time() - st # user system elapsed # 1.04 0.04 1.09 # 驗證結果 head(DT, 40) http://imgur.com/NxjaCaH -- R資料整理套件系列文: magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9 data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.224.109.231
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1503827007.A.D2A.html
1F:推 s3714443: 感恩大大,想問大大為什麼處理這種大量資料有用到apply 08/27 20:49
2F:→ s3714443: 還是可以這麼快呢!甘拜下風 08/27 20:50
我只用到tapply而已,tapply速度是還算快的XDD
3F:推 s3714443: 所以tapply算apply家族中比較快的嗎?而且我覺得只用到 08/27 21:20
4F:→ s3714443: min這種簡單函數函數來跑tapply也是關鍵 08/27 21:20
應該說group by somethin to do something比較難做vectorization 所以用tapply就變成是不得已去使用的情境 但是背後其實也是lapply而已 不過這裡是有替代方案,例如先把which出來的row,column排序之後 利用rle取出第一個出現該row的位置就好 簡單實現的程式如下: X <- matrix(c(0,0,2,0,0,0,2,0,0,0,1,1,3,2,0), 5) locMat <- which(X > 0, arr.ind = TRUE) ## 要的是第1,2,4,6列 # row col # [1,] 1 3 # [2,] 2 2 # [3,] 2 3 # [4,] 3 1 # [5,] 3 3 # [6,] 4 3 ## 利用order把row根col排序 locMat <- locMat[order(locMat[,1], -locMat[,2]), ] # row col # [1,] 1 3 # [2,] 2 3 # [3,] 2 2 # [4,] 3 3 # [5,] 3 1 # [6,] 4 3 locMat[cumsum(rle(locMat[,1])$lengths), ] # row col # [1,] 1 3 # [2,] 2 2 # [3,] 3 1 # [4,] 4 3 ※ 編輯: celestialgod (125.224.109.231), 08/27/2017 21:54:54
5F:→ f496328mm: 如果用 apply 家族的話 開平行會不會好一點?? 08/28 08:10
6F:→ f496328mm: 像是 snow or parallel 08/28 08:11
7F:→ f496328mm: 單就速度上來看 08/28 08:11
8F:推 s3714443: 但是我500多萬筆50幾個column三分鐘就跑完了 超快XD 08/28 12:53
9F:推 s3714443: 想請問c大 findValue(do.call(cbind, .SD)) 跟 08/28 13:14
10F:→ s3714443: findValue( .SD) 差在哪? 為什麼後者跑不出來? 感恩 08/28 13:15
11F:推 f496328mm: 如果你用apply家族,3分鐘跑完,那開平行會更快 08/28 13:37
12F:推 f496328mm: 不過主要是c大寫的比較有效率 08/28 13:39
13F:→ celestialgod: 開平行可能改善不多,中間還有傳輸問題,建議還是用 08/28 18:26
14F:→ celestialgod: vectorization方法解決 08/28 18:26
15F:→ celestialgod: .SD是list 要轉成矩陣才能跑findValue 08/28 18:27







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Soft_Job站內搜尋

TOP