作者ecstasym (愛咳死在西)
看板R_Language
標題[問題] 用R分析健保資料
時間Wed Mar 5 20:17:31 2014
[問題類型]:
程式諮詢
我想用R 分析健保資料,但是連要怎麼用R 讀資料都寫不出來
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
老師丟了一筆健保教我用R試著分析 (老師自己是用SAS)
但我之前修過的課都沒有教得太難
大部分是社區型的小資料
健保資料是很大的一筆 .DAT檔案
內容超過 65萬筆資料,約 40個變項
目前上網找過,也看過一兩本R的書
但都沒有寫的很詳細
目前知道read.delim()可以讀進檔案,但是根本亂碼 XD
需要的幫助是希望高手們可以教教我怎麼可以讀這檔案
或是有沒有程式套件可用~
以上,希望各位幫幫小妹了
[關鍵字]:
健保資料
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 123.192.51.110
1F:→ obarisk:big5 utf8? 資料的分隔符號是? 關鍵字XD 03/05 20:39
2F:→ ecstasym:請問資料的分隔符號要從哪裡可以知道呢? 03/05 21:03
3F:→ gsuper:你的問題應該不是R , 是要先找軟體把 .dat 檔換成 .txt檔 03/05 21:04
5F:→ ecstasym:所以我需要的是宣告第幾個字元是哪個變數嗎?? 03/05 21:36
6F:推 kokolotl:你要先知道每個位置代表啥意思 去找資料的codebook吧 03/05 22:19
7F:推 diplazium:何不直接請老師給你CSV檔? 03/06 09:24
9F:→ braveht:請安裝RStudio,點右上角的import dataset... 03/06 19:13
10F:推 kokolotl:這樣的資料型態我比較喜歡用stata來弄XD 03/06 19:51
11F:→ obarisk:看不出來資料長怎樣 03/06 23:15
12F:推 summitstudio:跟老師要codebook裡面有資料格式(健保資料是固定長度 03/07 17:28
13F:→ summitstudio:而不是用分隔符號這點比較麻煩,有codebook才作得動 03/07 17:29
14F:→ summitstudio:基本上一行(row)就是一個觀察值 然後用長度去切欄位 03/07 17:30
15F:推 summitstudio:或者懶人解法就是跟老師要已經讀好的 SAS dataset xD 03/07 17:33
16F:→ anovachen:substr() 03/11 15:34
各位好
我有譯碼簿了,這個健保資料是沒有分隔符號的
所以基本上應該是照SU大說的要用長度去分割它
所以我發現我的問題應該是不知道怎麼去分割,而且也不知道
read.delim()讀檔案是不是對的
>_<
(老師的意思好像要我直接跑,而不是用轉其他格式的檔案跑)
※ 編輯: ecstasym 來自: 123.192.51.110 (03/22 17:09)
17F:→ gsuper:#1HLjk2HI 參考一下我這篇筆記文 花個10天學一下資料處理 03/23 00:37
18F:→ gsuper:資料處理本來就是分析中相當耗時的部分 不太可能一鍵解決 03/23 00:38