R_Language 板


LINE

- 問題: 當你想要問問題時,請使用這個類別。 建議先到 http://tinyurl.com/mnerchs 搜尋本板舊文。 [問題類型]: 效能諮詢(我想讓R 跑更快) [軟體熟悉度]: 請把以下不需要的部份刪除 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 請簡略描述你所要做的事情,或是這個程式的目的 我有一個約千萬筆的產品交易紀錄 格式長得像下面這樣子 #testdata customerid:AAAAAAAAAA payment:BBBBBBBB ReadTime:CCCCCC 20170419020204PruductNumber:DDDDDD:NT00183.1415Number:40 20170419020205PruductNumber:EEEEEE:NT00184.1415Number:42 20170419020206PruductNumber:FFFFFF:NT00185.1415Number:44 客戶:GGGGGGGGGGG 付款方式:III 讀取時間:JJJJJJ 20170419020204PruductNumber:KKKKKK:NT00040.1610Number:40 20170419020205PruductNumber:EEEEEE:NT00041.1610Number:42 20170419020206PruductNumber:FFFFFF:NT00042.1610Number:44 20170419020207PruductNumber:HHHHHH:NT00043.1610Number:46 我想要整理成 客戶 付款方式 讀取時間 交易時間 產品序號 金額 數量 AAAAAAAAAAA BBBBBB CCCCCC 20170419020204 DDDDDD 00183.1415 40 AAAAAAAAAAA BBBBBB CCCCCC 20170419020205 EEEEEE 00184.1415 42 AAAAAAAAAAA BBBBBB CCCCCC 20170419020206 FFFFFF 00185.1415 44 GGGGGGGGGGG III JJJJJJ 20170419020204 KKKKKK 00040.1610 40 GGGGGGGGGGG III JJJJJJ 20170419020205 EEEEEE 00041.1610 42 GGGGGGGGGGG III JJJJJJ 20170419020206 FFFFFF 00042.1610 44 GGGGGGGGGGG III JJJJJJ 20170419020207 HHHHHH 00043.1610 46 目前程式的雛型是讀入data後用for迴圈跟if和substr判定關鍵字, 再用substr寫入各變數後,利用rbind結合變數輸出。 但是碰到的問題是利用測試資料試跑時(約10000筆)就碰上了效能不佳的問題, 真實資料約1000萬筆,請問有無處理此類資料的套件或是效能較佳的解法呢? 感謝。 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.9.219
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1492585376.A.957.html
1F:→ Wush978: 這種高效能的非結構化資料,只能運用hadoop/spark的map- 04/19 16:42
2F:→ Wush978: reduce來做了 04/19 16:42
3F:→ Wush978: 「需要高效能的整理非結構化資料的功能」<--我第一句是要 04/19 16:43
4F:→ Wush978: 打這個 04/19 16:43
5F:推 f496328mm: 資料大約幾GB? 可以試試看用sapply取代for 04/19 17:03
6F:→ f496328mm: 然後再用snow平行去加速 04/19 17:03
7F:→ f496328mm: 這算是比較折衷的方法 04/19 17:04
8F:推 obarisk: c/c++ 04/19 17:15
9F:推 fox1375: 試試Microsoft R Open? 04/19 20:00







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BabyMother站內搜尋

TOP