作者wheado (principal component QQ)
看板R_Language
标题[问题] 有关网路爬虫"网址(url)"的问题
时间Mon Aug 8 15:05:04 2016
问题:
有关於网页的"url"问题
程度:
新手
叙述:
我想对一个网站(某个租屋网)进行资料收集,
该网站将屋子讯息每20笔放在一个分页,
但是当我点入第二个分页时,
网址在後面只多了"#list",
当我点入第三个分页时,仍就是如此,找不到网页的网址。
想请问有没有类似的关键字可以让我搜寻相关的问题。
谢谢。
程式:
require("XML")
require("httr")
.get <- GET("
https://rent.591.com.tw/")
.content <- content(.get,"text")
.htmlParse <- htmlParse(.content)
.web <- xpathSApply(.htmlParse,"//div[@class='left']/a[@href]",
xmlAttrs)
## The first 20 data information in the page-1.
.web[1,]
环境:
Windows R-3.2.5
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 58.114.225.29
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1470639907.A.EA9.html
1F:→ andrew43: 它是靠cookie来决定显示内容的。找 urlJumpIpByTxt 和 08/08 22:59
2F:→ andrew43: urlJumpIp 的值,会决定哪个县市。 08/08 23:01
3F:→ andrew43: 至於第几页,是由jsPage()的javascript来达成的。 08/08 23:07
4F:→ andrew43: 总之,你眼睛看到的URL其实对你没有用处。了解其js的细 08/08 23:08
5F:→ andrew43: 节才可能了解怎麽控制显示内容再控制R去读取。 08/08 23:09