library(XML)
library(data.table)
library(magrittr)
#library(purrr)
PDF <- xmlTreeParse("ideone_jqS8fo.xml", useInternalNodes=TRUE)
pages <- getNodeSet(PDF, "//Page[@number]")
words <- sapply(seq_along(pages), function(x) {
wx<- getNodeSet(PDF,
paste0("//Page[@number='",x,"']/Content/Para/Box/Word"))
length(wx)
}, simplify = TRUE)
out <- rbindlist(list(
#rep(xpathApply(PDF, path="//Page", fun= xmlGetAttr, 'number'), each=2),
#flatten(mapply(rep, times=words, x=seq_along(pages), USE.NAMES = F)),
as.list(do.call(function(x,times) {rep(x,times)},
args=list(x=seq_along(pages), times=words))),
xpathApply(PDF, path="//Page/Content/Para/Box/Word/Text", fun= xmlValue),
xpathApply(PDF, path="//Page/Content/Para/Box/Word/Box[@*]", fun= xmlAttrs)
)) %>% data.table::transpose()
#> out
V1 V2 V3 V4 V5
1: D1.2 70.87 43.56 94.53 31.56
2: Date 109.17 156.75 131.80 144.75
3: Forms 70.87 43.56 94.53 31.56
4: only 264.74 43.56 286.73 31.56
######################################### 随意增加一段Text
#> out
V1 V2 V3 V4 V5 V6
1: 1 D1.2 70.87 43.56 94.53 31.56
2: 1 Date 109.17 156.75 131.80 144.75
3: 1 MyTry 10.17 15.75 13.80 14.75
4: 2 Forms 70.87 43.56 94.53 31.56
5: 2 only 264.74 43.56 286.73 31.56
※ 引述《lsshno1 ( )》之铭言:
: [问题类型]:
: 程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
: [软体熟悉度]:
: 入门(写过其他程式,只是对语法不熟悉)
: [问题叙述]:
: 各位前辈好, 我目前手边有一个xml的档案, 我想要取出其中的parent跟children node,
: merge在一起.
: Page(我的parent node)为分页, 范例中有两页.
: Text与Box@llx, lly, urx, ury为我的children node.
: 我预期我的data.frame为:
: Page Text llx lly urx ury
: 1 D1.2 70.87 43.56 94.53 31.56
: 1 Date 109.17 156.75 131.80 144.75
: 2 Forms 70.87 43.56 94.53 31.56
: 2 only 264.74 43.56 286.73 31.56
: 目前参考这边的做法 https://tinyurl.com/ya3yh5cj
: 连结的作法为, 取出每个page的node, 并放在list中.
: (就范例而言, 会创造出一个list, 其中有两个element, 分别代表两个page)
: 接着, 利用lapply结合xpathApply, 对每个element取出我要的children node.
: 但, 我发现在values这个list中, 她的确有两个element,
: 其中每个elements都是重复page 1 and 2 的资讯.
: 如下:
: [[1]] [[2]]
: D1.2 D1.2
: Date Date
: Forms Forms
: only only
: 烦请各位指教, 谢谢!
: 程式码: https://ideone.com/D2kbyw
: 范例档案: https://ideone.com/jqS8fo
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.45.14.109
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1525446714.A.268.html
※ 编辑: cywhale (114.45.14.109), 05/04/2018 23:16:12
1F:推 lsshno1: 感谢前辈的回覆, 这样的确可以抓出我的资讯, 但是我之所 05/05 00:34
2F:→ lsshno1: 会用lapply去包xpathApply, 其实就是因为parent node 05/05 00:35
3F:→ lsshno1: 如资料, D1.2 and Date 应该属於 page[@number]=1 05/05 00:36
4F:→ lsshno1: Form and only是属於page number=2, 所以我没办法 05/05 00:37
5F:→ lsshno1: 把Page number与Text and Box[@*]放在一起, 再麻烦各位了 05/05 00:37
※ 编辑: cywhale (114.45.14.109), 05/05/2018 00:56:56
6F:→ cywhale: 我没注意到你还要有page那一栏..我加了,你看看 05/05 00:57
7F:推 lsshno1: 感谢回覆, 您的做法是抓出number然後用rep去处理, 但是 05/05 01:26
8F:→ lsshno1: 实际的资料每个page中, 会有不同长度的Text跟Box@ 05/05 01:27
9F:→ lsshno1: 例如page=1时, 可能有15个Text, page=2有20个Text 05/05 01:28
10F:→ lsshno1: 所以简单的来说, 我没有一个merge key把Parent node 05/05 01:29
11F:→ lsshno1: merge回到children node (我平常写SAS, 所以用Merge思考) 05/05 01:29
12F:→ lsshno1: 之前想要lapply就是想把每个page放到list中, 利用lapply 05/05 01:30
13F:→ lsshno1: 处理list中每个element (page) 05/05 01:30
※ 编辑: cywhale (114.45.14.109), 05/05/2018 19:54:55
14F:→ cywhale: 程式这种事就是这样罗..改规格..就加几行..写下去就对了 05/05 19:55
15F:→ cywhale: mapply+purrr::flattenO应该可以简化 我随手写,参考看看 05/05 19:57
16F:→ cywhale: 改了一下..改用do.call 05/05 20:07
※ 编辑: cywhale (114.45.14.109), 05/05/2018 20:07:38
17F:→ cywhale: 对了请不要称前辈,这称呼太重太老^^,直接call名就好了 05/05 20:11
※ 编辑: cywhale (114.45.14.109), 05/05/2018 21:39:08
18F:推 lsshno1: 成功了, 太感谢您了!! 05/05 22:03