作者Sofya (千野羽)
看板Ajax
标题[问题] 写Web Crawler遇到JavaScript解析问题
时间Thu Dec 18 19:12:58 2014
抱歉可能跟JavaScript没有直接相关,但是还是上来跟各位请教一下
最近工作上需要开始学习使用Java来撰写Web Crawler
主要是去parsing 影音网页上的一些资讯
但是遇到下面这个网站
http://www.cbs.com/shows/amazing_race/video/
我想要把Full Episodes --> 底下的每个影片的URL link都抓出来
然後再连结到各个link去,但是看了一下网页原始码,
影片的选单似乎是从JavaScript产生出来的
我尝试用HtmlUnit去解析网页後取得Link也无效
想请教有什麽方法可以取得Javascript动态产生的linkage
或者是其他工具可以达成解析URL link的目的?
目前想到是自己呼叫网页的Javascript...但有点不知从何下手...
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 69.181.159.126
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Ajax/M.1418901182.A.D58.html
1F:推 s25g5d4: phantomJS 12/18 19:31
2F:→ Sofya: 後来用Chrome找到Json来源的URL..已解决 12/19 18:12