作者buski (......)
看板Statistics
標題[問題] SAS讀取巨量資料問題
時間Wed Aug 11 00:18:23 2021
如果是跟統計軟體有關請重發文章,使用程式做為分類。
統計軟體,如SPSS, AMOS, SAS, R, STATA, Eviews,請都使用程式做為分類
請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。
為避免版面混亂,請勿手動置底問題,善用E做檔案編輯
工作上使用SAS的 Proc Import這個指令讀取一個非常龐大的文字檔(約400 GB)
並轉存成SAS的資料檔。
居然發現兩台電腦所匯入後的資料筆數居然會不一樣,基本上兩台電腦空間都足夠。
一樣的程式碼,一樣的來源檔。
電腦A:工作站等級 INTEL 32核CPU / RAM:16GB
匯入之後的資料筆數是七千多萬多筆
電腦B: 家用桌機 AMD Ryzen 3800 / RAM:32GB
匯入之後的筆數是八億多筆
差異非常大,SAS 的LOG沒見到任何錯誤或警示訊息。 兩台都跑了三遍結果一樣。
匯入過程透過工作管理員去檢視記憶體使用情形,也大都在6-9GB之間,並沒有吃滿。
請問這是什麼問題呢?? 謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.241.194.85 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Statistics/M.1628612305.A.798.html
1F:推 west1996: sas軟體版本,sas編碼,os編碼都一樣嗎?匯入的檔案格式 08/11 01:48
2F:→ west1996: 是什麼?七千萬跟八億哪個答案才是對的? 08/11 01:48
3F:→ west1996: 另外,直接檢視兩個檔案的前幾十筆資料彼此是否相同,跟 08/11 01:50
4F:→ west1996: raw data又是否相同,可能就直接可以看出問題是什麼了 08/11 01:50
5F:→ buski: 後來找到問題了,記憶體不足SAS會將資料切割,沒注意到NOTE 08/11 14:03
6F:→ buski: 在log裡面有一行提醒資料是被truncated。所以八億多是正確 08/11 14:04
7F:→ buski: 所以看來SAS內部有記憶體使用的限制,不會用到滿。 08/11 14:06
8F:→ buski: 可能會因應硬體的最大值做一定比例的運用?? 08/11 14:42
9F:推 west1996: cofig檔中有一個memsize的參數會限制sas的記憶體使用量 08/12 03:32
10F:→ west1996: ,有需要可以改 08/12 03:32
12F:→ west1996: .5/hostwin/n0srij4mcdpzv2n1vtphltb00xjw.htm 08/12 03:32
13F:→ buski: 感覺不完全是這個問題,軟體預設是2G,但是兩台電腦都遠大 08/13 13:16
14F:→ buski: 於2G,如果是這個限制的話,應該兩台都會切資料。 08/13 13:17