作者Sofya (千野羽)
看板java
标题[问题] 使用Java写Web Crawler
时间Thu Dec 18 19:07:53 2014
各位好,
不确定该不该在Java版上问这个问题,因为内容有点牵涉到JavaScript
但是因为程式是用Java写成,所以还是上来请教
最近工作上需要开始学习使用Java来撰写Web Crawler
主要是去parsing 影音网页上的一些资讯
但是遇到下面这个网站
http://www.cbs.com/shows/amazing_race/video/
我想要把Full Episodes --> 底下的每个影片的URL link都抓出来
然後再连结到各个link去,但是看了一下网页原始码,
影片的选单似乎是从JavaScript产生出来的
我尝试用HtmlUnit去解析网页後取得Link也无效
想请教有什麽方法可以取得Javascript动态产生的linkage
目前想到是自己呼叫内部的Javascript...但有点不知从何下手...
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 69.181.159.126
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/java/M.1418900877.A.31E.html
1F:→ realmeat: 如果只对一个网站你不用考虑对js下手, 资料一定有来源 12/19 10:03
2F:→ Sofya: 问题已经解决..用Chrome找到Json来源的URL..感谢 12/19 18:11