作者imce (蜥蜴)
看板perl
标题Re: [问题] 请问抓网页并去除html tag後 出现乱码?
时间Thu Oct 25 08:29:30 2007
※ 引述《senhuo (努力吧)》之铭言:
: 请问各位高手们
: 我将某一网页抓下来
: 并用regular去除 html tag
: 但显示的结果竟然变成乱码,但有些网页没出现乱码,有些则有...@@
: (还是去除tag前要加什麽?)
: 请问有人知道解决方案吗
: 感谢~~
: 程式码----------------------------------------------------------
Unicode网页,请编码成big5才能顺利显示
use WWW::Mechanize;
use Encode;
my $mech = WWW::Mechanize->new();
my $http="
http://blog.roodo.com/judie35/archives/270979.html";
$mech->get($http);
my $html=$mech->content();
$html= encode ("big5-eten",decode('utf-8', $html));
foreach ($html){
s/<[^>]*>//g;}
print $html;
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 60.250.75.176
1F:推 senhuo:哇 真强! 可以了耶...谢谢...orz... 10/25 11:15
2F:推 senhuo:再请教一下...如果原本就可以显示的网页 10/25 16:51
3F:→ senhuo:加上encode後 反而会变成乱码耶... 10/25 16:51
4F:→ senhuo:请问有方法可以解决吗?谢谢 10/25 16:51