作者celestialgod (天)
看板R_Language
标题Re: [问题] dataframe字串切割
时间Tue Jun 5 00:28:06 2018
※ 引述《wmj10054039 (MJ)》之铭言:
: [问题类型]:
: 程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
: [软体熟悉度]:
: 入门(写过其他程式,只是对语法不熟悉)
: [问题叙述]:
: 我目前整理了一份学校所有课程的时间表,想知道不同星期,不同地点,各时段的
: 人数统计。dataframe资料范例如下:
: 流水号 课程名称 时间 地点 人数
: 102 A 二3,4四5,7 甲 10
: 248 B 一1,2,3 乙 20
: 314 C 三4五7,8,a 丙 5
: 想请问各位可以用甚麽方法对时间那一栏作字串切割变成以下新的dataframe
: 流水号 课程名称 星期 节次 地点 人数
: 102 A 二 3 甲 10
: 102 A 二 4 甲 10
: 102 A 四 5 甲 10
: 102 A 四 7 甲 10
: 248 B 一 1 乙 20
: 248 B 一 2 乙 20
: . .
: . .
: . .
: 目前想法只有想到for回圈搭配strspilt,但还是想不到实际写法,麻烦各位指教了,谢谢
: [环境叙述]
: R version 3.4.2
程式:
library(data.table)
library(pipeR)
library(stringr)
dataStr <- "流水号 课程名称 时间 地点 人数
102 A 二3,4四5,7 甲 10
248 B 一1,2,3 乙 20
314 C 三4五7,8,a 丙 5"
removeEmptyFunc <- function(x) x[nchar(x) > 0]
fread(dataStr) %>>%
`[`(j = `:=`(星期 = str_split(时间, "[a-zA-Z0-9,]+") %>>%
lapply(removeEmptyFunc),
节次 = str_split(时间, "[^a-zA-Z0-9,]+") %>>%
lapply(removeEmptyFunc))) %>>%
`[`(j = .(星期 = unlist(星期), 节次 = unlist(节次)),
by = .(流水号, 课程名称, 地点, 人数)) %>>%
`[`(j = `:=`(节次 = str_split(节次, ","))) %>>%
`[`(j = .(节次 = unlist(节次)), by = .(流水号, 课程名称, 地点, 人数, 星期))
## no pipe 程式码
dataDT <- fread(dataStr)
dataDT[ , `:=`(星期 = lapply(str_split(时间, "[a-zA-Z0-9,]+"),
removeEmptyFunc),
节次 = lapply(str_split(时间, "[^a-zA-Z0-9,]+"),
removeEmptyFunc))]
tmpDT <- dataDT[ , .(星期 = unlist(星期), 节次 = unlist(节次)),
by = .(流水号, 课程名称, 地点, 人数)]
tmpDT[ , `:=`(节次 = str_split(节次, ","))]
tmpDT[ , .(节次 = unlist(节次)), by = .(流水号, 课程名称, 地点, 人数, 星期)]
结果:
# 流水号 课程名称 地点 人数 星期 节次
# 1: 102 A 甲 10 二 3
# 2: 102 A 甲 10 二 4
# 3: 102 A 甲 10 四 5
# 4: 102 A 甲 10 四 7
# 5: 248 B 乙 20 一 1
# 6: 248 B 乙 20 一 2
# 7: 248 B 乙 20 一 3
# 8: 314 C 丙 5 三 4
# 9: 314 C 丙 5 五 7
# 10: 314 C 丙 5 五 8
# 11: 314 C 丙 5 五 a
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 206.189.81.226
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1528129690.A.7B9.html
※ 编辑: celestialgod (206.189.81.226), 06/05/2018 00:31:28
1F:推 jasonfghx: GOD~~ 06/05 08:21
2F:推 wmj10054039: 太强了 跪~ 谢谢c大还特地回文,真的有成功作出来了 06/06 01:26
3F:→ wmj10054039: 。不过小弟还太弱,你程式码的有些语法我还在研究中. 06/06 01:26
4F:→ wmj10054039: 我想再请教一下c大,如果我今天只想要把节次的头尾 06/06 01:30
5F:→ wmj10054039: 取出 譬如 “四1,2,3五7,8” 取出变成 时间=c(“ 06/06 01:30
6F:→ wmj10054039: 四”, “四”, “五”, “五”) 节次=c(1, 3, 7, 8) 06/06 01:30
7F:→ wmj10054039: 这样的话 有什麽方向可以指点一下吗 非常感谢 06/06 01:31
8F:→ celestialgod: 没看懂问题,可以再说详细一点吗? 06/06 08:08
9F:推 andrew43: 他应该是指连续超过二小时的课指取出头和尾 06/06 10:23
10F:→ Wush978: 切好之後针对相同的四、五的数字用diff切断点後再抓 06/06 13:09