Statistics 板


LINE

※ 引述《cawaiilulu (across)》之銘言: (恕刪) : 沒關係 這個都不用管 假設就 都兩位以下數字 我主要是想問怎麼寫比較"快" 我嘗試寫了一段應用雙重 set 迴圈的 code 如下(及本文末,防連結失效) https://gist.github.com/anonymous/6f5b3f7f650a990bcfac 先講測試結果.... 測試條件:SAS 9.4 / win7 x64 / 2.9G 雙核心 / ramdisk 20G(SAS工作位置) 以資料筆數 n=1k, m=500k 測試,耗時 real time 144s CPU time 133s 因此合理估計 n=100k, m=500k 時,將花去約13300s, 即3.7小時左右 不曉得這個效率,是否符合您的期待? 然後是最佳化的想法.... 首先您要求的任務,基本上時間複雜度一定是 >= O(nm) 的, 這是因為您不但需要判定「較大變數個數之最大值 (絕大多數情況會是 5)」, 還必須給出最大值的「發生次數」, 所以每一筆 n 跟每一筆 m 都非得做過一次比較,才能取得發生次數之故。 因此,能夠最佳化的部份,主要就是下面這些點了: 1.嘗試減少 I/O 次數(磁碟讀寫總是最慢的) 2.減少各種不必要的中間變數。 3.嘗試一邊讀取、一邊計算、一邊更新,僅用 n*m 次資料存取就解決問題。 (i.e.就資料 I/O 的部份,把常數壓到 1) 另外,這個 case 我認為 set 雙迴圈的作法一定遠遠優於 proc sql。 因為這兩個表格的合併方式是不帶條件的 Cartesian join, 並且用 proc sql 來處理的話,還需要製造 5 個 dummy variable, (case when then else end 的寫法,大概非這樣不可,至少我寫不出其他作法) 所以一定會產生一個非常龐大的 (n*m) 中間資料集, 產生大量不必要的I/O。 相較之下,data step 的 set 雙迴圈,在條件判斷與資料輸出方面,就靈活許多。 對 dataset b 的資料,可以輕易做到讀完即丟(見code), 除了結果之外,完全不需創造中間資料集, 因此空間複雜度會永遠被壓縮在 1*1,而不是 n*m 當然如果我有想錯,也請諸位前輩不吝賜教~ m(_ _)m 附:測試程式碼 %let NA = 1000; * expect 100k; %let NB = 500000; * expect 500k; /* generate test dataset */ data a; ID = 0; do while (ID < &NA); ID + 1; V1 = ranuni(777); V2 = ranuni(777); V3 = ranuni(777); V4 = ranuni(777); V5 = ranuni(777); output; end; run; data b; ID = 0; * ID of b is of no use; do while (ID < &NB); ID + 1; V1 = ranuni(911); V2 = ranuni(911); V3 = ranuni(911); V4 = ranuni(911); V5 = ranuni(911); output; end; run; /* match */ data result(keep=ID CNT); set a; N = 0; * the current maximum value of "# of bigs"; CNT = 0; * the # of occurence of current N; i = 0; * pointer for random accessing dataset b; do while (i < NN); i+1; /* read i-th obs of dataset b */ set b(rename=(V1-V5=BV1-BV5) drop=ID) point=i nobs=NN; /* find "# of bigs" of this i-th obs */ N_this = 0; if V1 - BV1 > 0 then N_this = N_this + 1; if V2 - BV2 > 0 then N_this = N_this + 1; if V3 - BV3 > 0 then N_this = N_this + 1; if V4 - BV4 > 0 then N_this = N_this + 1; if V5 - BV5 > 0 then N_this = N_this + 1; /* take action based on the value of N_this */ * case 1: N_this < N -> discard all data of b (do nothing); if N_this < N then do; end; * case 2: N_this = N -> update CNT; else if N_this = N then CNT = CNT + 1; * case 3: N_this > N -> replace N by N_this and reset CNT value; else do; N = N_this; CNT = 1; end; /* output to see how N and CNT change gradually (should limit the value of &NA and &NB!) */ *output; end; run; --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.39.232.118
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1434760473.A.B0A.html ※ 編輯: realtemper (114.39.232.118), 06/20/2015 08:42:07
1F:→ MOONY135: 我的感覺會很慢 06/20 11:17
2F:→ realtemper: 請賜教 06/20 17:28
3F:→ MOONY135: 喔 我是說我上一篇的CODE 我用SQL寫的 06/20 22:02
4F:→ realtemper: 嗯 試過了,你的其實不是慢,是不能解決問題 -- 因為 06/21 01:15
5F:→ realtemper: 中間資料集太大了(100*500k即達2.6G) 06/21 01:16
6F:→ realtemper: 100k*500k就會需要吃掉>2T。 06/21 01:18







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:WOW站內搜尋

TOP