R_Language 板


library(XML) library(data.table) library(magrittr) #library(purrr) PDF <- xmlTreeParse("ideone_jqS8fo.xml", useInternalNodes=TRUE) pages <- getNodeSet(PDF, "//Page[@number]") words <- sapply(seq_along(pages), function(x) { wx<- getNodeSet(PDF, paste0("//Page[@number='",x,"']/Content/Para/Box/Word")) length(wx) }, simplify = TRUE) out <- rbindlist(list( #rep(xpathApply(PDF, path="//Page", fun= xmlGetAttr, 'number'), each=2), #flatten(mapply(rep, times=words, x=seq_along(pages), USE.NAMES = F)), as.list(do.call(function(x,times) {rep(x,times)}, args=list(x=seq_along(pages), times=words))), xpathApply(PDF, path="//Page/Content/Para/Box/Word/Text", fun= xmlValue), xpathApply(PDF, path="//Page/Content/Para/Box/Word/Box[@*]", fun= xmlAttrs) )) %>% data.table::transpose() #> out V1 V2 V3 V4 V5 1: D1.2 70.87 43.56 94.53 31.56 2: Date 109.17 156.75 131.80 144.75 3: Forms 70.87 43.56 94.53 31.56 4: only 264.74 43.56 286.73 31.56 ######################################### 随意增加一段Text #> out V1 V2 V3 V4 V5 V6 1: 1 D1.2 70.87 43.56 94.53 31.56 2: 1 Date 109.17 156.75 131.80 144.75 3: 1 MyTry 10.17 15.75 13.80 14.75 4: 2 Forms 70.87 43.56 94.53 31.56 5: 2 only 264.74 43.56 286.73 31.56 ※ 引述《lsshno1 ( )》之铭言: : [问题类型]: : 程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来) : [软体熟悉度]: : 入门(写过其他程式,只是对语法不熟悉) : [问题叙述]: : 各位前辈好, 我目前手边有一个xml的档案, 我想要取出其中的parent跟children node, : merge在一起. : Page(我的parent node)为分页, 范例中有两页. : Text与Box@llx, lly, urx, ury为我的children node. : 我预期我的data.frame为: : Page Text llx lly urx ury : 1 D1.2 70.87 43.56 94.53 31.56 : 1 Date 109.17 156.75 131.80 144.75 : 2 Forms 70.87 43.56 94.53 31.56 : 2 only 264.74 43.56 286.73 31.56 : 目前参考这边的做法 https://tinyurl.com/ya3yh5cj : 连结的作法为, 取出每个page的node, 并放在list中. : (就范例而言, 会创造出一个list, 其中有两个element, 分别代表两个page) : 接着, 利用lapply结合xpathApply, 对每个element取出我要的children node. : 但, 我发现在values这个list中, 她的确有两个element, : 其中每个elements都是重复page 1 and 2 的资讯. : 如下: : [[1]] [[2]] : D1.2 D1.2 : Date Date : Forms Forms : only only : 烦请各位指教, 谢谢! : 程式码: https://ideone.com/D2kbyw : 范例档案: https://ideone.com/jqS8fo --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.45.14.109
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1525446714.A.268.html ※ 编辑: cywhale (114.45.14.109), 05/04/2018 23:16:12
1F:推 lsshno1: 感谢前辈的回覆, 这样的确可以抓出我的资讯, 但是我之所 05/05 00:34
2F:→ lsshno1: 会用lapply去包xpathApply, 其实就是因为parent node 05/05 00:35
3F:→ lsshno1: 如资料, D1.2 and Date 应该属於 page[@number]=1 05/05 00:36
4F:→ lsshno1: Form and only是属於page number=2, 所以我没办法 05/05 00:37
5F:→ lsshno1: 把Page number与Text and Box[@*]放在一起, 再麻烦各位了 05/05 00:37
※ 编辑: cywhale (114.45.14.109), 05/05/2018 00:56:56
6F:→ cywhale: 我没注意到你还要有page那一栏..我加了,你看看 05/05 00:57
7F:推 lsshno1: 感谢回覆, 您的做法是抓出number然後用rep去处理, 但是 05/05 01:26
8F:→ lsshno1: 实际的资料每个page中, 会有不同长度的Text跟Box@ 05/05 01:27
9F:→ lsshno1: 例如page=1时, 可能有15个Text, page=2有20个Text 05/05 01:28
10F:→ lsshno1: 所以简单的来说, 我没有一个merge key把Parent node 05/05 01:29
11F:→ lsshno1: merge回到children node (我平常写SAS, 所以用Merge思考) 05/05 01:29
12F:→ lsshno1: 之前想要lapply就是想把每个page放到list中, 利用lapply 05/05 01:30
13F:→ lsshno1: 处理list中每个element (page) 05/05 01:30
※ 编辑: cywhale (114.45.14.109), 05/05/2018 19:54:55
14F:→ cywhale: 程式这种事就是这样罗..改规格..就加几行..写下去就对了 05/05 19:55
15F:→ cywhale: mapply+purrr::flattenO应该可以简化 我随手写,参考看看 05/05 19:57
16F:→ cywhale: 改了一下..改用do.call 05/05 20:07
※ 编辑: cywhale (114.45.14.109), 05/05/2018 20:07:38
17F:→ cywhale: 对了请不要称前辈,这称呼太重太老^^,直接call名就好了 05/05 20:11
※ 编辑: cywhale (114.45.14.109), 05/05/2018 21:39:08
18F:推 lsshno1: 成功了, 太感谢您了!! 05/05 22:03







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草
伺服器连线错误,造成您的不便还请多多包涵!
「赞助商连结」






like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:Boy-Girl站内搜寻

TOP