R_Language 板


LINE

- 问题: 当你想要问问题时,请使用这个类别。 建议先到 http://tinyurl.com/mnerchs 搜寻本板旧文。 [问题类型]: 效能谘询(我想让R 跑更快) [软体熟悉度]: 请把以下不需要的部份删除 入门(写过其他程式,只是对语法不熟悉) [问题叙述]: 请简略描述你所要做的事情,或是这个程式的目的 我有一个约千万笔的产品交易纪录 格式长得像下面这样子 #testdata customerid:AAAAAAAAAA payment:BBBBBBBB ReadTime:CCCCCC 20170419020204PruductNumber:DDDDDD:NT00183.1415Number:40 20170419020205PruductNumber:EEEEEE:NT00184.1415Number:42 20170419020206PruductNumber:FFFFFF:NT00185.1415Number:44 客户:GGGGGGGGGGG 付款方式:III 读取时间:JJJJJJ 20170419020204PruductNumber:KKKKKK:NT00040.1610Number:40 20170419020205PruductNumber:EEEEEE:NT00041.1610Number:42 20170419020206PruductNumber:FFFFFF:NT00042.1610Number:44 20170419020207PruductNumber:HHHHHH:NT00043.1610Number:46 我想要整理成 客户 付款方式 读取时间 交易时间 产品序号 金额 数量 AAAAAAAAAAA BBBBBB CCCCCC 20170419020204 DDDDDD 00183.1415 40 AAAAAAAAAAA BBBBBB CCCCCC 20170419020205 EEEEEE 00184.1415 42 AAAAAAAAAAA BBBBBB CCCCCC 20170419020206 FFFFFF 00185.1415 44 GGGGGGGGGGG III JJJJJJ 20170419020204 KKKKKK 00040.1610 40 GGGGGGGGGGG III JJJJJJ 20170419020205 EEEEEE 00041.1610 42 GGGGGGGGGGG III JJJJJJ 20170419020206 FFFFFF 00042.1610 44 GGGGGGGGGGG III JJJJJJ 20170419020207 HHHHHH 00043.1610 46 目前程式的雏型是读入data後用for回圈跟if和substr判定关键字, 再用substr写入各变数後,利用rbind结合变数输出。 但是碰到的问题是利用测试资料试跑时(约10000笔)就碰上了效能不佳的问题, 真实资料约1000万笔,请问有无处理此类资料的套件或是效能较佳的解法呢? 感谢。 --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.25.9.219
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1492585376.A.957.html
1F:→ Wush978: 这种高效能的非结构化资料,只能运用hadoop/spark的map- 04/19 16:42
2F:→ Wush978: reduce来做了 04/19 16:42
3F:→ Wush978: 「需要高效能的整理非结构化资料的功能」<--我第一句是要 04/19 16:43
4F:→ Wush978: 打这个 04/19 16:43
5F:推 f496328mm: 资料大约几GB? 可以试试看用sapply取代for 04/19 17:03
6F:→ f496328mm: 然後再用snow平行去加速 04/19 17:03
7F:→ f496328mm: 这算是比较折衷的方法 04/19 17:04
8F:推 obarisk: c/c++ 04/19 17:15
9F:推 fox1375: 试试Microsoft R Open? 04/19 20:00







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:iOS站内搜寻

TOP