Database 板


LINE

以下仅供参考 因为问题叙述还不够完善,我仅就能理解的部分提供建议 这个问题牵涉到大数据与full table scan 所以我会先考虑复杂度的估计 我估算的复杂度如下,因为不是很会估,如果有算错请高手能不吝指正 两个档互串,有两个比对变数,又是使用between作范围式比对 我估的比对次数为 240万*1600万*1600万=614400000万 但如果资料是6年并在一起,依照需求会有很多无效比对 还有,table a 重点是要知道 date+doctor 的组合,所以我估算每年平均40万笔资料 去重覆假设变30万笔 那麽,估算切一年算一次的次数就是 30万*(1600万/6*2)*(1600万/6*2)*6(年)=51136020万 至少差12倍 ======= 所以,建议至少一年切一次,每年算一次 SAS里,先把原始资料切年度做成档案,然後再用SQL执行计算 想一句写完,看起来很帅,但不见得跑得快 我写个范例表示一下我的概念: /*先依照年分切档案*/ data table_a_2019 table_a_2018; set table_a; if year(prescriptionBeginDate)=2019 then output table_a_2019; if year(prescriptionBeginDate)=2018 then output table_a_2018; keep prescriptionBeginDate DOCTOR; run; proc sort data=table_a_2019 nodup; by DOCTOR prescriptionBeginDate ; proc sort data=table_a_2018 nodup; by DOCTOR prescriptionBeginDate ; run; data table_b_2019 table_b_2018; set table_b; if 2018<=year(prescriptiondate)<=2019 then output table_b_2019; if 2017<=year(prescriptiondate)<=2018 then output table_b_2018; run; /*再用SAS分年度计算*/ proc sql; select distinct a.*, count(distinct b.SID) as service_volume from table_a_2019 as a, table_b_2019 as b where a.Doctor=b.Doctor and b.prescriptiondate between a.prescriptionBeginDate and intnx('year', a.PrescriptionBeginDate, -1, 'same') ; quit; 如果切半年算一次 我估的复杂度是 15万*(1600万/12*2)*(1600万/12*2)*12(0.5年)=12832020万 跟原始差47倍,省更多时间 也就是要用 空间 换取时间 以上分享 ※ 引述《Wengboyu ( )》之铭言: : 资料库名称:SAS SQL : 资料库版本:9.4 : 内容/问题描述: : 我有table a和b : table a : date SID doctor : 2019/1/1 a jack : 2019/1/2 a jack : 2019/1/3 a jack : 2019/2/1 b ben : 2019/2/2 b ben : 2019/2/3 b ben : ... : 2019/2/15 b mark : 2019/2/16 b mark : 2019/2/17 b mark : table b : date SID doctor : 2018/1/1 a jack : 2018/1/2 b jack : 2018/1/3 c jack : 2018/1/15 a jack : 2018/1/31 a ben : 2018/3/1 b ben : 2018/3/1 c mark : 2018/4/16 d mark : 2018/4/21 c mark : 我要得到下面的结果 : table c : date SID doctor doctor_service_volume : 2019/1/1 a jack 3 : 2019/1/2 a jack 3 : 2019/1/3 a jack 2 : 2019/2/1 b ben 1 : 2019/2/2 b ben 1 : 2019/2/3 b ben 1 : ... : 2019/2/15 b mark 2 : 2019/2/16 b mark 2 : 2019/2/17 b mark 2 : 我要计算table a每一笔,a.doctor在a.date过去一年内收过多少病人(不重复) : table b是处方签资料 : 例如: : first row in table a : date SID doctor : 2019/1/1 a jack : 我就要从table b中去找docor jack在a.date和(a.date - 1 year)间 : 收了多少不重复的病人 : table b doctor jack 在2018/1/1 ~ 2019/1/1开过处方签的病人 : date SID doctor : 2018/1/1 a jack : 2018/1/2 b jack : 2018/1/3 c jack : 2018/1/15 a jack (重复) : 所以a.doctor_service_volume = 3 : 我自己写的code如下 : Proc sql; : create table want as select : a.*, (select count(distinct b.SID) : from : dataset a, dataset b : where : a.DoctorID = b.DoctorID and a.DoctorID is not missing and : b.prescriptiondate between a.prescriptionBeginDate and : intnx('year', a.PrescriptionBeginDate, -1, 'same')) : as service_volume : from : dataset a, dataset b; : quit; : 因为跑很久,我不太确定这样写是不是可以得到我要的结果.. : table a 有240万笔,b有1600万笔 : 如果大家要测试自己code写得对不对,会怎麽弄? --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.194.244.48 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Database/M.1605868945.A.8EC.html







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BabyMother站内搜寻

TOP