作者seedman (cc)
看板Python
标题Re: [问题] 抓网拍资料
时间Sun Sep 5 11:39:04 2010
自问自答一下
我看了露天拍卖网页的原始档
还有用Fiddler2这个看http协定的程式
他关键字都是直接送给
http://class.ruten.com.tw/category/sub00.php 这个php
不是靠javascript
所以就没办法像是改url直接去urlopen
也看不到.php里面是怎麽实作的
找到一篇C#的做法
http://tinyurl.com/22jhagk
里面提到用ReadyState判断可以让我读到真正的内容
而python用pywin32去控制ie的话就可以用这个去判断
import win32com.client
from time import sleep
ie = win32com.client.Dispatch("InternetExplorer.Application")
ie.Visible = 0
ie.Navigate('
http://class.ruten.com.tw/category/sub00.php?c=0022000200150004')
while 1:
state = ie.ReadyState
if state == 4:
break
sleep(1)
print ie.Document.body.innerHTML
这样子可以得到正确的结果HTML原始码
--
目前还在寻找有没有其他的不用靠pywin32的方式
如果有人知到烦请告知
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.136.123.26
※ 编辑: seedman 来自: 220.136.123.26 (09/05 11:43)