R_Language 板


LINE

[问题类型]: 效能谘询(我想让R 跑更快 [软体熟悉度]: 使用者(已经有用R 做过不少作品) [问题叙述]: 想试图用XML里的套件readHTMLTable()爬https://reurl.cc/arOM1D的表格 当作练习 却没反应 按照https://reurl.cc/Wd68Gx也没办法整理 所以小弟本人决定用硬a的方式.... 想请问有什麽方法可以直接爬虫下来并且整理好成表格的@@ [程式范例]: setwd("D:\\") d1<-read.csv("行政院环境保护署标案.csv",header=F) a1<-data.frame(t(d1[1:6,])) a2<-data.frame(t(d1[7:12,])) a3<- data.frame(t(d1[13:18,])) a4<- data.frame(t(d1[19:24,])) a5<- data.frame(t(d1[25:30,])) a6<- data.frame(t(d1[31:36,])) a7<- data.frame(t(d1[37:42,])) a8<- data.frame(t(d1[43:48,])) a9<- data.frame(t(d1[49:54,])) a10<- data.frame(t(d1[55:60,])) a11<- data.frame(t(d1[61:66,])) a12<- data.frame(t(d1[67:72,])) . . . . . result<-rbind(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,........) [环境叙述]: R4.02 [关键字]: 爬虫、rvest、XML、XML2 -- --



※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.216.124.179 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1595255214.A.9BD.html
1F:→ locka: 你的程式码跟rvest没关系啊…没反应的话至少也贴上你的程式07/20 23:22
2F:→ locka: 码让大家知道你卡在哪里…07/20 23:22
3F:→ locka: 有的时候爬不下来可能因为表格内容是动态产生的,如果对於h07/20 23:25
4F:→ locka: tml观念不熟的话,或许可以使用rselenium套件试看看07/20 23:25
5F:→ asdfrtg: 感谢l大提点07/21 00:09
6F:→ asdfrtg: 不过是想让这段程式码可以变成爬虫到表格一条龙能够解决.07/21 00:11
7F:→ asdfrtg: ..所以才提出效能谘询@@07/21 00:11
8F:→ locka: 我刚刚试了一下你贴的网址,的确没有那麽好爬,我再研究一07/21 00:29
9F:→ locka: 下。是说你的d1长什麽样子啊?看起来你现在是贴到csv然後再07/21 00:29
10F:→ locka: 读取,既然要这样为什麽不贴上的时候就整理好?07/21 00:29
回l大就是会变成整个是一栏 但必须要做成六栏多列 做到有些崩溃就上来板上想请教有没有更加快速的方法...
11F:→ andrew43: 有点偷鸡的方法:https://ideone.com/CO8og907/21 00:51
12F:→ andrew43: 其实只是抓每个cell再排到matrix里而已07/21 00:56
感谢a大的帮忙...orz, 另外想请问两位大大 若爬虫的话 通常会使用哪个套件那个函数 ※ 编辑: asdfrtg (49.216.124.179 台湾), 07/21/2020 01:22:50
13F:推 locka: 其实爬虫就是把网页上你按右键查看原始码的东西抓下来,所 07/21 13:20
14F:推 locka: 以read_html()会需要,然後重点是要会解析标签,我个人常用 07/21 13:20
15F:推 locka: xml_find_all()取出想要的内容,以上都是rvest/xml2套件 07/21 13:20
是用selectogadget吗? ※ 编辑: asdfrtg (49.216.124.179 台湾), 07/21/2020 13:55:32
16F:推 locka: 看了一下,selecttogadget是帮助你解析网页元素的xpath,这 07/21 14:19
17F:推 locka: 部分相同功能的东西chrome扩充应用程式商店很多,挑习惯的 07/21 14:19
18F:推 locka: 用就好。 07/21 14:19
19F:→ locka: 更正:SelectorGadget 07/21 14:25
20F:→ andrew43: 推locka,最常用就是rvest或xml2。 07/21 15:23







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:WOW站内搜寻

TOP