Re: [问题] 读取csv中特定的row

时间Wed Mar 9 10:42:33 2016

# 全部读进来在切割就好了： library(magrittr) library(data.table) library(dplyr) cv_index_f <- function(numSampleSize, numFold){ cvIndex <- rep(1:numFold, each = floor(numSampleSize / numFold)) m <- numSampleSize %% numFold if (m > 0) cvIndex %<>% c(1:m) return(cvIndex %>% sample(length(.))) } dat <- data.table(x = rnorm(100), y = rnorm(100)) cvDat <- dat %>% mutate(cvIndex = cv_index_f(nrow(.), 10)) %>% split(.$cvIndex) # > str(cvDat) # List of 10 # $ 1 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] -0.424 -0.181 0.241 0.31 0.874 ... # ..$ y : num [1:10] 0.272 -1.197 -0.441 -0.499 -2.136 ... # ..$ cvIndex: int [1:10] 1 1 1 1 1 1 1 1 1 1 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 2 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] -0.533 1.25 -1.689 -1.557 -1.597 ... # ..$ y : num [1:10] 0.266 1.272 0.876 2.442 0.928 ... # ..$ cvIndex: int [1:10] 2 2 2 2 2 2 2 2 2 2 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 3 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] 0.437 0.463 2.512 0.919 -1.206 ... # ..$ y : num [1:10] -1.3943 -1.7927 0.0471 0.9818 -1.0305 ... # ..$ cvIndex: int [1:10] 3 3 3 3 3 3 3 3 3 3 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 4 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] -0.361 -0.34 0.621 1.266 -0.356 ... # ..$ y : num [1:10] -0.315 -0.51 -0.257 -1.533 -1.02 ... # ..$ cvIndex: int [1:10] 4 4 4 4 4 4 4 4 4 4 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 5 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] 1.141 -1.699 -1.076 0.443 0.864 ... # ..$ y : num [1:10] 0.3992 0.6175 -1.496 -0.7096 0.0923 ... # ..$ cvIndex: int [1:10] 5 5 5 5 5 5 5 5 5 5 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 6 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] -0.175 -0.785 -2.775 -0.315 0.375 ... # ..$ y : num [1:10] -0.262 0.811 1.763 -1.197 0.712 ... # ..$ cvIndex: int [1:10] 6 6 6 6 6 6 6 6 6 6 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 7 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] 1.2276 0.0944 0.9955 -1.0433 0.2058 ... # ..$ y : num [1:10] -0.216 -0.691 -3.355 1.082 -1.641 ... # ..$ cvIndex: int [1:10] 7 7 7 7 7 7 7 7 7 7 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 8 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] -0.9693 -0.3944 -0.1652 -0.0932 -1.9734 ... # ..$ y : num [1:10] -0.0336 1.1692 -0.2655 -1.9138 -1.3532 ... # ..$ cvIndex: int [1:10] 8 8 8 8 8 8 8 8 8 8 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 9 :Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] -0.36 1.2 -1.17 2.5 1.16 ... # ..$ y : num [1:10] 0.4338 -0.4115 0.2877 1.2177 -0.0426 ... # ..$ cvIndex: int [1:10] 9 9 9 9 9 9 9 9 9 9 # ..- attr(*, ".internal.selfref")=<externalptr> # $ 10:Classes ‘data.table’ and 'data.frame': 10 obs. of 3 variables: # ..$ x : num [1:10] 1.583 -1.054 -0.362 -0.259 1.229 ... # ..$ y : num [1:10] -0.135 0.481 -1.52 0.627 0.72 ... # ..$ cvIndex: int [1:10] 10 10 10 10 10 10 10 10 10 10 # ..- attr(*, ".internal.selfref")=<externalptr> # 你的case就长这样： cvDat <- fread(fileName, sep=',') %>% mutate(cvIndex = cv_index_f(nrow(.), 10)) %>% split(.$cvIndex) # 如果要移除cvIndex，可以直接这样做 cvDat %<>% lapply(function(x) select(x, -cvIndex)) # or equivalently cvDat %<>% lapply(select, -cvIndex) # or use purrr library(purrr) cvDat %<>% map(~select(., -cvIndex)) # or equivalently cvDat %<>% map(select, -cvIndex) 题外话：不建议你用内建函数的名称当做变数名称，ex: seq, file, nrow, c等 ※ 引述《MADNUG (就是比你长)》之铭言： : [问题类型]: : 效能谘询(我想让R 跑更快) : [软体熟悉度]: : 使用者(已经有用R 做过不少作品) : [问题叙述]: : 小弟有个3.8G多的csv档，但只想要随机读取1/10的row : fread好像没read specific rows的指令， : 难道只能读整个档案再select row了吗？ : 这样好没效率呀..... : 若要cross-validation的话光I/O就跑死了.... : 想请问有没有更效率一点方法呢？ : 谢谢了 : [程式范例]: : 参考网路用fread + nrow and skip 写了一下，但是更慢Orz..... : 但也是预料中啦XDD : http://pastebin.com/gW9W1GmN : [关键字]: : : fread : -- R资料整理套件系列文： magrittr #1LhSWhpH (R_Language) http://tinyurl.com/1LhSWhpH data.table #1LhW7Tvj (R_Language) http://tinyurl.com/1LhW7Tvj dplyr(上) #1LhpJCfB (R_Language) http://tinyurl.com/1LhpJCfB dplyr(下) #1Lhw8b-s (R_Language) tidyr #1Liqls1R (R_Language) http://tinyurl.com/1Liqls1R --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.109.74.87 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1457491357.A.F28.html

1^F：推 MADNUG: 谢谢！但资料量大的话，这样就有记忆体不足的问题了吧？ 03/09 11:53

2^F：→ MADNUG: 会不想整个读进去,其中一个考量也是记忆体Orz 03/09 11:55

因为我看到你直接分段读进去，我才想说你没有记忆体问题XDD 如果你有记忆体问题，就只能利用硬碟做快取，看你原本那篇推文的 ff 套件吧

3^F：→ MADNUG: 因为读资料後，记忆体已经剩不多,再C-V的话就爆了 03/09 11:59

读十次跟读一次拆十份，记忆体确实差了两倍... 如果没办法读一次解决，就只能用ff了不然就是读进来给cvIndex，每次给一个subset做validation，不去存下来就好 ※ 编辑: celestialgod (140.109.74.87), 03/09/2016 12:05:03

4^F：→ MADNUG: 记忆体问题真是棘手囧...我来研究ff试试，谢谢了! 03/09 12:06

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

Re: [问题] 读取csv中特定的row

热门看板

赞助商连结