R_Language 板


LINE

速度看起來還好? 還是我搞錯cywhale想要做的是什麼? library(data.table) library(dplyr) # testing data, assuming merge by key = "SP" set.seed(NULL) x <- matrix(sample(1e6), 1e5) %>% data.table() %>% setnames(1:10,sample(LETTERS,10)) %>% .[,SP:=seq_len(nrow(.))] y <- matrix(sample(1e5), 1e4) %>% data.table() %>% setnames(1:10,sample(LETTERS,10)) %>% .[,SP:=seq_len(nrow(.))] z <- matrix(sample(4e5), 2e4) %>% data.table() %>% setnames(1:20,sample(LETTERS,20)) %>% .[,SP:=seq_len(nrow(.))] ###### mycode t = proc.time() xyz <- x %>% full_join(y, by='SP') %>% full_join(z, by='SP') %>% as.data.table() mut_list <- unique(substr(names(xyz)[grep('.', names(xyz), fix=T)],1,1)) for(i in 1:length(mut_list)){ mycols <- grep(mut_list[i], names(xyz), fix=T) xyz[,mySum := rowSums(.SD), .SDcols=mycols] xyz[,(mycols):= NULL] names(xyz)[names(xyz)=="mySum"] <- mut_list[i] cat(paste0(mut_list[i]),"\n") } proc.time() - t ※ 引述《cywhale (cywhale)》之銘言: : [問題類型]: : : 效能諮詢(我想讓R 跑更快) : : 好像在哪曾看過較簡易的寫法或function,但一時想不起,也沒找到,寫了比較複雜的 : code,想請問是否有更快或更簡易的方式做到 : [軟體熟悉度]: : 請把以下不需要的部份刪除 : 入門(寫過其他程式,只是對語法不熟悉) : [問題敘述]: : 請簡略描述你所要做的事情,或是這個程式的目的 : Merge some data tables by the same key, 但若有相同的variables則合併時要相加, : 不管NA,data tables彼此間的行、列數均不同 : [程式範例]: : : : library(data.table) : library(dplyr) : # testing data, assuming merge by key = "SP" : set.seed(NULL) : x <- matrix(sample(1e6), 1e5) %>% data.table() %>% : setnames(1:10,sample(LETTERS,10)) %>% .[,SP:=seq_len(nrow(.))] : y <- matrix(sample(1e5), 1e4) %>% data.table() %>% : setnames(1:10,sample(LETTERS,10)) %>% .[,SP:=seq_len(nrow(.))] : z <- matrix(sample(4e5), 2e4) %>% data.table() %>% : setnames(1:20,sample(LETTERS,20)) %>% .[,SP:=seq_len(nrow(.))] : # function.. try to write Rcpp function.. : require(Rcpp) : cppFunction('NumericVector addv(NumericVector x, NumericVector y) { : NumericVector out(x.size()); : NumericVector::iterator x_it,y_it,out_it; : for (x_it = x.begin(), y_it=y.begin(), out_it = out.begin(); : x_it != x.end(); ++x_it, ++y_it, ++out_it) { : if (ISNA(*x_it)) { : *out_it = *y_it; : } else if (ISNA(*y_it)) { : *out_it = *x_it; : } else { : *out_it = *x_it + *y_it; : } : } : return out;}') : ### merge two data.table with different columns/rows, : ### and summing identical column names : outer_join2 <- function (df1,df2,byNames) { : tt=intersect(colnames(df1)[-match(byNames,colnames(df1))], : colnames(df2)[-match(byNames,colnames(df2))]) : df <- merge(df2,df1[,-tt,with=F],by=byNames,all=T) : dt <- merge(df2[,-tt,with=F],df1[,c(byNames,tt),with=F],by=byNames,all=T) %>% : .[,tt,with=F] : for (j in colnames(dt)) {set(df,j=j,value=addv(df[[j]],dt[[j]]))} : return (df) : } : # get results, 參考c大 #1LaHm_aH (R_Language) : system.time(Reduce(function(x, y) outer_join2(x, y, byNames="SP"), list(x,y,z))) : 用了較多行code來完成這件事,速度上似乎還可以,但不確定是否有更好的寫法?謝謝! : [關鍵字]: : : 選擇性,也許未來有用 : --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.73.102
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1444722039.A.6EB.html
1F:→ celestialgod: m大的SP會被抓進去總和喔XDD 10/13 16:37
2F:→ celestialgod: 不過m大的方法也滿快的 10/13 16:37
3F:→ celestialgod: 回圈內的名字要排除掉SP就好 10/13 16:37
4F:→ memphis: 可是我的迴圈裡沒有SP阿? join的by 不是一直都只有一個? 10/13 16:45
5F:→ memphis: 如果沒有做錯的話, 剩下的問題應該是警告訊息, 跟na.rm 10/13 16:45
6F:→ celestialgod: 你出來的結果沒有SP這個column 10/13 16:50
7F:→ celestialgod: 你可以print你總和的column看看 10/13 16:50
8F:推 celestialgod: 這個是隨機產生colomn,所以你可能生成出沒有S的x, 10/13 17:29
9F:推 celestialgod: y, z 10/13 17:29
10F:→ celestialgod: 你才會看到SP被總和掉 10/13 17:30
11F:→ memphis: (羞) 那關於重複名稱的選取, 不要做得太偷懶有bug就好了 10/13 17:39
12F:→ celestialgod: grep(paste0(mut_list[i], "\\..+"), names(xyz)) 10/13 17:43
13F:→ celestialgod: 改這樣應該就沒問題了 10/13 17:43
14F:→ celestialgod: 認真試了一下 NA + NA = 0的問題還是存在QQ 10/13 17:51
15F:→ celestialgod: 有時候 NA + 值 會變回NA (把rowSums加上na.rm=T後 10/13 17:51
16F:→ celestialgod: 感覺這個code很有趣,但是要改到可以用還有一段路 10/13 17:52
17F:→ celestialgod: (眼神死 10/13 17:52
18F:推 cywhale: 多謝m大提供簡易快速的解法,說也好笑,我當初找dplyr中 10/13 19:13
19F:→ cywhale: outer_join一直找不到,原來是full_join.. >< 10/13 19:14
20F:→ cywhale: NA+NA這問題,的確,後來自己就在rcpp中的小程式解決... 10/13 19:15
21F:→ celestialgod: 可是cy大 full_join的data.table method也是用merge 10/13 19:16
22F:→ celestialgod: .data.table 10/13 19:16
23F:→ cywhale: 也是,但我沒想到用grep+rowSum去處理重複變數.x,.y... 10/13 19:40
24F:→ cywhale: 後來才會衍生出自己版本那樣的寫法... 10/13 19:41
25F:推 celestialgod: 我有想過抓. x,. y來做可是要寫迴圈就不爽寫了,哈 10/13 19:42
26F:推 celestialgod: 哈哈哈 10/13 19:42







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Boy-Girl站內搜尋

TOP