Database 板


LINE

以下僅供參考 因為問題敘述還不夠完善,我僅就能理解的部分提供建議 這個問題牽涉到大數據與full table scan 所以我會先考慮複雜度的估計 我估算的複雜度如下,因為不是很會估,如果有算錯請高手能不吝指正 兩個檔互串,有兩個比對變數,又是使用between作範圍式比對 我估的比對次數為 240萬*1600萬*1600萬=614400000萬 但如果資料是6年併在一起,依照需求會有很多無效比對 還有,table a 重點是要知道 date+doctor 的組合,所以我估算每年平均40萬筆資料 去重覆假設變30萬筆 那麼,估算切一年算一次的次數就是 30萬*(1600萬/6*2)*(1600萬/6*2)*6(年)=51136020萬 至少差12倍 ======= 所以,建議至少一年切一次,每年算一次 SAS裡,先把原始資料切年度做成檔案,然後再用SQL執行計算 想一句寫完,看起來很帥,但不見得跑得快 我寫個範例表示一下我的概念: /*先依照年分切檔案*/ data table_a_2019 table_a_2018; set table_a; if year(prescriptionBeginDate)=2019 then output table_a_2019; if year(prescriptionBeginDate)=2018 then output table_a_2018; keep prescriptionBeginDate DOCTOR; run; proc sort data=table_a_2019 nodup; by DOCTOR prescriptionBeginDate ; proc sort data=table_a_2018 nodup; by DOCTOR prescriptionBeginDate ; run; data table_b_2019 table_b_2018; set table_b; if 2018<=year(prescriptiondate)<=2019 then output table_b_2019; if 2017<=year(prescriptiondate)<=2018 then output table_b_2018; run; /*再用SAS分年度計算*/ proc sql; select distinct a.*, count(distinct b.SID) as service_volume from table_a_2019 as a, table_b_2019 as b where a.Doctor=b.Doctor and b.prescriptiondate between a.prescriptionBeginDate and intnx('year', a.PrescriptionBeginDate, -1, 'same') ; quit; 如果切半年算一次 我估的複雜度是 15萬*(1600萬/12*2)*(1600萬/12*2)*12(0.5年)=12832020萬 跟原始差47倍,省更多時間 也就是要用 空間 換取時間 以上分享 ※ 引述《Wengboyu ( )》之銘言: : 資料庫名稱:SAS SQL : 資料庫版本:9.4 : 內容/問題描述: : 我有table a和b : table a : date SID doctor : 2019/1/1 a jack : 2019/1/2 a jack : 2019/1/3 a jack : 2019/2/1 b ben : 2019/2/2 b ben : 2019/2/3 b ben : ... : 2019/2/15 b mark : 2019/2/16 b mark : 2019/2/17 b mark : table b : date SID doctor : 2018/1/1 a jack : 2018/1/2 b jack : 2018/1/3 c jack : 2018/1/15 a jack : 2018/1/31 a ben : 2018/3/1 b ben : 2018/3/1 c mark : 2018/4/16 d mark : 2018/4/21 c mark : 我要得到下面的結果 : table c : date SID doctor doctor_service_volume : 2019/1/1 a jack 3 : 2019/1/2 a jack 3 : 2019/1/3 a jack 2 : 2019/2/1 b ben 1 : 2019/2/2 b ben 1 : 2019/2/3 b ben 1 : ... : 2019/2/15 b mark 2 : 2019/2/16 b mark 2 : 2019/2/17 b mark 2 : 我要計算table a每一筆,a.doctor在a.date過去一年內收過多少病人(不重複) : table b是處方簽資料 : 例如: : first row in table a : date SID doctor : 2019/1/1 a jack : 我就要從table b中去找docor jack在a.date和(a.date - 1 year)間 : 收了多少不重複的病人 : table b doctor jack 在2018/1/1 ~ 2019/1/1開過處方簽的病人 : date SID doctor : 2018/1/1 a jack : 2018/1/2 b jack : 2018/1/3 c jack : 2018/1/15 a jack (重複) : 所以a.doctor_service_volume = 3 : 我自己寫的code如下 : Proc sql; : create table want as select : a.*, (select count(distinct b.SID) : from : dataset a, dataset b : where : a.DoctorID = b.DoctorID and a.DoctorID is not missing and : b.prescriptiondate between a.prescriptionBeginDate and : intnx('year', a.PrescriptionBeginDate, -1, 'same')) : as service_volume : from : dataset a, dataset b; : quit; : 因為跑很久,我不太確定這樣寫是不是可以得到我要的結果.. : table a 有240萬筆,b有1600萬筆 : 如果大家要測試自己code寫得對不對,會怎麼弄? --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.194.244.48 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Database/M.1605868945.A.8EC.html







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BuyTogether站內搜尋

TOP