作者celestialgod (天)
看板R_Language
标题Re: [问题] 下载网页连结档案
时间Tue May 2 23:11:45 2017
※ 引述《l111011 (Mr.Pickles)》之铭言:
: 我原本是要从 https://itouch.cycu.edu.tw/active_system/CourseQuerySystem/
: 取表格 , 但是 R 的读XML的函式貌似没办法读这种动态网页
: http://i.imgur.com/cmIYmjh.png
: 所以我改去尝试下载上图的连结
: 看了一下F12 , 要下载这个连结似乎要用HTTR中的POST
: 参考了 http://leoluyi.logdown.com/posts/406397-crawler-mops-2
: 的方法
: 但是
: http://i.imgur.com/sBuTzm9.png
: 这个连结直接把上一页资料塞在From data 给他转成xls
: 看起来要用httr下载此连结应该不行(要传上一页资料)
: 请问有什麽方法
library(httr)
library(pipeR)
url <-
"
https://itouch.cycu.edu.tw/active_system/CourseQuerySystem/GetCourses.jsp"
courseInfo <- POST(url, query = list(yearTerm = 1052)) %>>% content("text")
x <- strsplit(strsplit(courseInfo, "@@")[[1]], split = "|", fixed = TRUE)
do.call(rbind, x[-1])
结果图:
http://imgur.com/a/jZvHN
url是从开发者工具找到的,找到这个连结就可以全部抓下来了
(
http://imgur.com/a/XyiMf )
然後给不同yearTerm就可得到不同学年的资料
--
R资料整理套件系列文:
magrittr #1LhSWhpH (R_Language) https://goo.gl/72l1m9
data.table #1LhW7Tvj (R_Language) https://goo.gl/PZa6Ue
dplyr(上.下) #1LhpJCfB,#1Lhw8b-s (R_Language) https://goo.gl/I5xX9b
tidyr #1Liqls1R (R_Language) https://goo.gl/i7yzAz
pipeR #1NXESRm5 (R_Language) https://goo.gl/zRUISx
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.233.136.9
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1493737909.A.C01.html
※ 编辑: celestialgod (36.233.136.9), 05/02/2017 23:13:47
1F:推 l111011: 先感谢您 , 另外您rbind要去除第1列, 但是好像没去除 05/03 00:37
2F:推 l111011: 还有切割字串似乎有问题,不过我应该自己能处理 05/03 01:15
3F:→ l111011: 感谢您费心帮忙,当初没仔细找错方向 05/03 01:17
4F:→ celestialgod: 你自己再稍加修改吧,我这里测出来是没什麽问题就是 05/03 08:08
5F:推 l111011: 您可以用view(x),会发现有row长度不同,看那几个,资料 05/03 10:07
6F:→ l111011: 是有错的 05/03 10:07
7F:推 l111011: 阿,sorry忘了assign回去,您是对的 05/03 11:31