R_Language 板


LINE

[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 使用R透過RHadoop的Rhdfs 1.0.8 [程式範例]: 我目前的實驗環境,需要讀取很大的CSV File(存放在Hadoop的HDFS上,檔案大小幾乎 都大於20GB), 我使用了RHdoop的rhdfs R Package Ref. https://github.com/RevolutionAnalytics/RHadoop/wiki 使用Rstudio Web版開發,原始碼如下 ************************************************************************************************* Sys.setenv(HADOOP_CMD="/usr/lib/hadoop/bin/hadoop") Sys.setenv(HADOOP_STREAMING="/usr/lib/hadoop-mapreduce/hadoop-streaming-2.2.0.2.0.6.0-101.jar") Sys.setenv(HADOOP_COMMON_LIB_NATIVE_DIR="/usr/lib/hadoop/lib/native/") library(rmr2); library(rhdfs); library(lubridate); hdfs.init(); f = hdfs.file("/bigdata/rawdata/201312.csv","r",buffersize=104857600); m = hdfs.read(f); c = rawToChar(m); data = read.table(textConnection(c), sep = ","); ************************************************************************************************* 讀完後,發現它只讀進了前一千五百多筆的資料,正確應該有一億多筆 ************************************************************************************************* 去Google了一下,有查到下列這個解的方向 “rhdfs uses the java api for reading files stored in hdfs. That api will not necessarily read the entire file in one shot. It will return some number of bytes for each read. When it reaches the end of the file it returns -1. In the case of rhdfs, and end of the file will return NULL. So, you need to loop on the hdfs.read call until NULL is returned” 不過看了rhdfs的手冊,並沒有仔細提到上面解法關於hdfs.read()的行為:< 不知道有人有這方面經驗嗎? [關鍵字]: R, Large Scale Data Set, Big Data, Hadoop, RHadoop, CSV, HDFS, rhdfs Thanks in advance! --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.251.38.1
※ 文章網址: http://webptt.com/m.aspx?n=bbs/R_Language/M.1400472388.A.FDB.html ※ 編輯: dppman (60.251.38.1), 05/19/2014 12:07:32 ※ 編輯: dppman (60.251.38.1), 05/19/2014 12:18:34
1F:推 Wush978:有沒有考慮先用hadoop fs -get 把資料拿到local端再讀取? 05/19 13:01
2F:→ dppman:hadoop fs -get回local那樣效能更差:~ 05/19 15:13
3F:→ dppman:而且就不能利用到RHadoop的rmr2用R寫MapReduce程式:~ 05/19 15:14
4F:推 Wush978:文件中是有說這些API都是streaming style 05/19 15:46
5F:→ dppman:在Local的話,連讀前面的一千五百多比都有問題:~ 05/19 16:11
6F:→ Wush978:設定一下colClasses, 有差別(用rmr的方式也有差) 05/19 16:22
7F:→ Wush978:另外記得看看你電腦的記憶體夠不夠 05/19 16:23
8F:→ dppman:其實我現在應該就是卡在我程式的m=hdfs.read(f)那邊@@ 05/19 16:25
※ 編輯: dppman (59.120.150.53), 05/19/2014 16:26:22
9F:→ Wush978:文件說明得很清楚,你要不停的呼叫hdfs.read(f)直到它回 05/19 16:33
10F:→ Wush978:NULL 05/19 16:33
11F:→ Wush978:但是記憶體問題是和hdfs.read無關喔,如果不夠讀到後來也 05/19 16:33
12F:→ Wush978:會出問題 05/19 16:33
13F:→ gsuper:一億筆相當大...何不分拆? 05/26 10:31
14F:→ dppman:如果是一台32G or 64G記憶體的Linux上Run R,一億筆怎麼拆 05/29 11:58
15F:→ dppman:比較好呢? 05/29 11:58
16F:→ gsuper:一萬筆一萬筆的讀取吧 05/29 13:50
17F:→ gsuper:#1HLjk2HI 參考我這篇的最後一段 05/29 13:51







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:e-shopping站內搜尋

TOP