作者LinusChen (来如春梦不多时)
看板perl
标题[问题] 抓取网页中的pdf档案
时间Thu Nov 30 00:07:49 2006
我想要抓取某个网页中的PDF档案
PDF产生的方式是先传序号给该网址
我使用
use IO::Socket;
print $socket "GET Query.aspx?pn=00525881&imageindex=1 HTTP/1.1\r\n";
而它显示的网页有html和pdf
我该如何把pdf存下来啊?
#Server Response
$result = "";
while (my $line=<$socket>) {
$result .= $line;
}
#HTTP Server Response Header
$result = substr($result,index($result,"\x0d\x0a\x0d\x0a")+4);
#存档
open F, "> PDF_file" or die "Can't write into filename";
print F $result;
close F;
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.109.18.90
1F:推 in2:use LWP::Simple;use IO::All; 12/02 12:02
3F:推 in2:疑, 搞错了, 你应该需要 cookie 一类的东西吧 :p 12/02 12:04
4F:推 LinusChen:可能是需要cookie吧 但是还是不知道怎麽做 我尝试用lynx 12/04 14:58
5F:→ LinusChen:去开那个网页 结果也没有办法下载pdf档 12/04 15:00
6F:→ LinusChen:lynx本身有支援cookie 12/04 15:01