作者buski (......)
看板Statistics
标题[问题] SAS读取巨量资料问题
时间Wed Aug 11 00:18:23 2021
如果是跟统计软体有关请重发文章,使用程式做为分类。
统计软体,如SPSS, AMOS, SAS, R, STATA, Eviews,请都使用程式做为分类
请详述问题内容,以利板友帮忙解答,过短文章依板规处置,请注意。
为避免版面混乱,请勿手动置底问题,善用E做档案编辑
工作上使用SAS的 Proc Import这个指令读取一个非常庞大的文字档(约400 GB)
并转存成SAS的资料档。
居然发现两台电脑所汇入後的资料笔数居然会不一样,基本上两台电脑空间都足够。
一样的程式码,一样的来源档。
电脑A:工作站等级 INTEL 32核CPU / RAM:16GB
汇入之後的资料笔数是七千多万多笔
电脑B: 家用桌机 AMD Ryzen 3800 / RAM:32GB
汇入之後的笔数是八亿多笔
差异非常大,SAS 的LOG没见到任何错误或警示讯息。 两台都跑了三遍结果一样。
汇入过程透过工作管理员去检视记忆体使用情形,也大都在6-9GB之间,并没有吃满。
请问这是什麽问题呢?? 谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.241.194.85 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Statistics/M.1628612305.A.798.html
1F:推 west1996: sas软体版本,sas编码,os编码都一样吗?汇入的档案格式 08/11 01:48
2F:→ west1996: 是什麽?七千万跟八亿哪个答案才是对的? 08/11 01:48
3F:→ west1996: 另外,直接检视两个档案的前几十笔资料彼此是否相同,跟 08/11 01:50
4F:→ west1996: raw data又是否相同,可能就直接可以看出问题是什麽了 08/11 01:50
5F:→ buski: 後来找到问题了,记忆体不足SAS会将资料切割,没注意到NOTE 08/11 14:03
6F:→ buski: 在log里面有一行提醒资料是被truncated。所以八亿多是正确 08/11 14:04
7F:→ buski: 所以看来SAS内部有记忆体使用的限制,不会用到满。 08/11 14:06
8F:→ buski: 可能会因应硬体的最大值做一定比例的运用?? 08/11 14:42
9F:推 west1996: cofig档中有一个memsize的参数会限制sas的记忆体使用量 08/12 03:32
10F:→ west1996: ,有需要可以改 08/12 03:32
12F:→ west1996: .5/hostwin/n0srij4mcdpzv2n1vtphltb00xjw.htm 08/12 03:32
13F:→ buski: 感觉不完全是这个问题,软体预设是2G,但是两台电脑都远大 08/13 13:16
14F:→ buski: 於2G,如果是这个限制的话,应该两台都会切资料。 08/13 13:17