作者MacPerson (Gary)
看板C_Sharp
标题[问题] 网页资料抓取
时间Tue Feb 4 17:42:40 2014
大家好:
最近朋友有一个需求,就是希望能撷取某个网页上的资料,
但这个网站都是用POST去切换网页,也就是网址列都是固定的,
当下我就回答她说,这个无法撷取资料,但他突然说:[为什麽不行]
我在脑海里思考了各种说法,但都无法说服他,例如:他只想撷取某一页的
资料,但因为网页是POST过去不像GET,所以我无法取得资料,但他的想法是
你可以写一个程式,照我所操作的步骤进去,到了那一页就抓资料,
照理来说应该也取的到。
所以想请教各位,POST方式切换网页的网站,是否可以抓得到网页资料?
顺便请教各位解法~
感谢各位前辈
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.70.224.226
1F:推 YahooTaiwan:可以 照他说的做 02/04 17:53
2F:→ YahooTaiwan:甚至可以找出最终目的页面所需的资料 直接丢POST req 02/04 17:54
感谢前辈 ~ 每次都提供忠肯建议^^
3F:→ LetDogDay:看一下HttpClient 这个类别 02/04 17:56
大大 还是有个疑问~ 之前我都是用webrequest 类别来撷取资料,因此只需要如:
www.yahoo.com.tw?testa=12&testb=11,就可以得到response撷取到资料,但网址
是POST,我该怎麽一步一步丢request给SERVER利用HttpClient类别,因为刚刚稍微
查了一下,他似乎也是必须传入GET的网址列
※ 编辑: MacPerson 来自: 61.70.224.226 (02/04 18:07)
抱歉,又长智慧了~ 稍微Search一下,网站利用框架方式或转址,例如MasterPage
让网址一直维持在index首页或转址网址列一直在ww.yahoo.com,那这种网站还能
抓资料吗?
※ 编辑: MacPerson 来自: 61.70.224.226 (02/04 18:27)
4F:推 YahooTaiwan:能呈现在你的浏览器上的就能抓 难易度不同而已 02/04 18:28
5F:→ tooto1985:找出框架的实际网址即可 02/04 18:29
感谢各位~ 稍微讨论一下 清晰不少阿~ 我继续研究,感恩!
※ 编辑: MacPerson 来自: 61.70.224.226 (02/04 18:32)
※ 编辑: MacPerson 来自: 61.70.224.226 (02/04 18:33)
6F:→ Litfal:Post也是有response的, 不要混淆了喔~ 02/08 17:12