作者ireullin (raison detre)
看板PHP
標題[請益] 使用simple_html_dom parsing aspx的網站
時間Mon Jul 8 17:16:44 2013
請問一下
我使用 simple_html_dom 去抓取一個aspx網站的內容
作法如下
$data=array(
'__EVENTTARGET'=>'',
'__EVENTARGUMENT'=>'',
'__LASTFOCUS'=>'',
'__VIEWSTATE'=>'',
'__EVENTVALIDATION'=>'',
);
$data_url = http_build_query($data);
$data_len = strlen ($data_url);
$request = array(
'http' => array (
'method' => 'POST',
'content' => $data_url,
'header' => "Content-type: application/x-www-form-urlencoded\r\n" .
"Content-Length: " . $data_len . "\r\n"
)
);
$context = stream_context_create($request);
$html = file_get_html(
'
http://www.url.com.tw/history.aspx',
false,
$context
);
可是以下這幾個欄位
__EVENTTARGET
__EVENTARGUMENT
__LASTFOCUS
__VIEWSTATE
__EVENTVALIDATION
不知道要填什麼
因為他是一連串不明的編碼
可是如果保持空白
或是填入與 fiddler中看到相同的值的話
抓到的都是此網頁不存在
請問針對aspx的這種網頁
該如何去parsing
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 219.85.180.156
1F:推 microtech:正常方式這頁面是怎麼進去看的? 07/09 11:08
2F:→ ireullin:由我要抓的上一頁,點一個連結 07/09 12:51
3F:→ ireullin:然後用post的方式帶一些參數與上述的那些 07/09 12:52
4F:→ ireullin:其他的參數基本上沒甚麼問題 07/09 12:52
5F:→ ireullin:可是上述那些如果不帶,還是導不到我要的頁面 07/09 12:53
6F:推 microtech:"你要抓的上一頁"->有沒有網址提供一下,想試看看 07/09 14:18
8F:→ ireullin:威力彩,只想抓固定期數的號碼 07/09 15:22
9F:→ ireullin:istory.aspx 抱歉,後面斷掉了 07/09 15:23