作者DarkKiller (System hacked)
看板perl
标题Re: [问题]请问'如何滤出网页表格资料呢?'
时间Fri May 18 16:59:55 2007
※ 引述《lestersd (小事不做大事难成)》之铭言:
: 请问, 比方说这个网页
: http://tinyurl.com/3dujed
: 我要如何才能将表格的资料滤出来使用呢?
: ( 序号, 注记, 书名, etc. )
: 不好意思, 可能是很新手的问题^^; 感谢各位;)
不... 这一点都不新手... :p
你可以用 HTML::Tree 提供的 TreeBuilder 把整份 HTML document 丢进去,
把树建出来以後抽出来用。
这是 document:
http://search.cpan.org/dist/HTML-Tree/lib/HTML/TreeBuilder.pm
另外这是很久前研究时写的 sample code:
my $tree = HTML::TreeBuilder->new;
$tree->parse($htmlcode);
# Get <img src="
http://blog.blah" alt="some" style="...">...</a>
my $node = $tree->look_down('_tag', 'img',
'src', qr{^
http://blog\.},
'alt', 'blah',
'style', '...');
print $node->as_HTML;
另外一个方法是写 template,然後用 Template::Extract 把资料拉出来,不过
这也是个邪恶的大密技就是了...
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.54.119
1F:推 lestersd:感恩;Q 05/19 14:33