library(XML)
library(data.table)
library(magrittr)
#library(purrr)
PDF <- xmlTreeParse("ideone_jqS8fo.xml", useInternalNodes=TRUE)
pages <- getNodeSet(PDF, "//Page[@number]")
words <- sapply(seq_along(pages), function(x) {
wx<- getNodeSet(PDF,
paste0("//Page[@number='",x,"']/Content/Para/Box/Word"))
length(wx)
}, simplify = TRUE)
out <- rbindlist(list(
#rep(xpathApply(PDF, path="//Page", fun= xmlGetAttr, 'number'), each=2),
#flatten(mapply(rep, times=words, x=seq_along(pages), USE.NAMES = F)),
as.list(do.call(function(x,times) {rep(x,times)},
args=list(x=seq_along(pages), times=words))),
xpathApply(PDF, path="//Page/Content/Para/Box/Word/Text", fun= xmlValue),
xpathApply(PDF, path="//Page/Content/Para/Box/Word/Box[@*]", fun= xmlAttrs)
)) %>% data.table::transpose()
#> out
V1 V2 V3 V4 V5
1: D1.2 70.87 43.56 94.53 31.56
2: Date 109.17 156.75 131.80 144.75
3: Forms 70.87 43.56 94.53 31.56
4: only 264.74 43.56 286.73 31.56
######################################### 隨意增加一段Text
#> out
V1 V2 V3 V4 V5 V6
1: 1 D1.2 70.87 43.56 94.53 31.56
2: 1 Date 109.17 156.75 131.80 144.75
3: 1 MyTry 10.17 15.75 13.80 14.75
4: 2 Forms 70.87 43.56 94.53 31.56
5: 2 only 264.74 43.56 286.73 31.56
※ 引述《lsshno1 ( )》之銘言:
: [問題類型]:
: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
: [軟體熟悉度]:
: 入門(寫過其他程式,只是對語法不熟悉)
: [問題敘述]:
: 各位前輩好, 我目前手邊有一個xml的檔案, 我想要取出其中的parent跟children node,
: merge在一起.
: Page(我的parent node)為分頁, 範例中有兩頁.
: Text與Box@llx, lly, urx, ury為我的children node.
: 我預期我的data.frame為:
: Page Text llx lly urx ury
: 1 D1.2 70.87 43.56 94.53 31.56
: 1 Date 109.17 156.75 131.80 144.75
: 2 Forms 70.87 43.56 94.53 31.56
: 2 only 264.74 43.56 286.73 31.56
: 目前參考這邊的做法 https://tinyurl.com/ya3yh5cj
: 連結的作法為, 取出每個page的node, 並放在list中.
: (就範例而言, 會創造出一個list, 其中有兩個element, 分別代表兩個page)
: 接著, 利用lapply結合xpathApply, 對每個element取出我要的children node.
: 但, 我發現在values這個list中, 她的確有兩個element,
: 其中每個elements都是重複page 1 and 2 的資訊.
: 如下:
: [[1]] [[2]]
: D1.2 D1.2
: Date Date
: Forms Forms
: only only
: 煩請各位指教, 謝謝!
: 程式碼: https://ideone.com/D2kbyw
: 範例檔案: https://ideone.com/jqS8fo
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.45.14.109
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1525446714.A.268.html
※ 編輯: cywhale (114.45.14.109), 05/04/2018 23:16:12
1F:推 lsshno1: 感謝前輩的回覆, 這樣的確可以抓出我的資訊, 但是我之所 05/05 00:34
2F:→ lsshno1: 會用lapply去包xpathApply, 其實就是因為parent node 05/05 00:35
3F:→ lsshno1: 如資料, D1.2 and Date 應該屬於 page[@number]=1 05/05 00:36
4F:→ lsshno1: Form and only是屬於page number=2, 所以我沒辦法 05/05 00:37
5F:→ lsshno1: 把Page number與Text and Box[@*]放在一起, 再麻煩各位了 05/05 00:37
※ 編輯: cywhale (114.45.14.109), 05/05/2018 00:56:56
6F:→ cywhale: 我沒注意到你還要有page那一欄..我加了,你看看 05/05 00:57
7F:推 lsshno1: 感謝回覆, 您的做法是抓出number然後用rep去處理, 但是 05/05 01:26
8F:→ lsshno1: 實際的資料每個page中, 會有不同長度的Text跟Box@ 05/05 01:27
9F:→ lsshno1: 例如page=1時, 可能有15個Text, page=2有20個Text 05/05 01:28
10F:→ lsshno1: 所以簡單的來說, 我沒有一個merge key把Parent node 05/05 01:29
11F:→ lsshno1: merge回到children node (我平常寫SAS, 所以用Merge思考) 05/05 01:29
12F:→ lsshno1: 之前想要lapply就是想把每個page放到list中, 利用lapply 05/05 01:30
13F:→ lsshno1: 處理list中每個element (page) 05/05 01:30
※ 編輯: cywhale (114.45.14.109), 05/05/2018 19:54:55
14F:→ cywhale: 程式這種事就是這樣囉..改規格..就加幾行..寫下去就對了 05/05 19:55
15F:→ cywhale: mapply+purrr::flattenO應該可以簡化 我隨手寫,參考看看 05/05 19:57
16F:→ cywhale: 改了一下..改用do.call 05/05 20:07
※ 編輯: cywhale (114.45.14.109), 05/05/2018 20:07:38
17F:→ cywhale: 對了請不要稱前輩,這稱呼太重太老^^,直接call名就好了 05/05 20:11
※ 編輯: cywhale (114.45.14.109), 05/05/2018 21:39:08
18F:推 lsshno1: 成功了, 太感謝您了!! 05/05 22:03