作者tumc (HIHIHI)
看板Perl
标题Re: [问题] 抓回来的网页去除html标签後出现部份乱码
时间Thu Jul 30 10:16:29 2009
: 好久没有回问题了 回一下XD
: 2个同义词 hex= 32 ad d3 a6 50 b8 71 b5 fc
: 2茼P义词 hex= 32 d3 a6 50 b8 71 b5 fc
: ad在处理中被吃掉了 hex ad = '-'
: 虽然不知道为什麽会这样
: 还有有方法可以解决
: 1.在最前面加上
: use Encode;
: 2.修改内文
: if ($response->is_success) {
: my $res = decode('big5',$response->content);
: $ascii = HTML::FormatText->new->format(parse_html($res));
: $ascii = encode('big5',$ascii);
: print $ascii;
: }
: 只要是中文问题 用这招通常都有效:P
jjt大大您好,
我用你这招使用在TreeBuilder,解掉了中文乱码问题
但发现一点有点奇怪
$ascii=encode('big5',$ascii)不是应该己经编码成big5了吗
为什麽我把$ascii存入文件内,然後在windows内开启,看起来的中文编码像是unicode,照理不是应该是big5才对吗
可以帮我解答吗,谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 59.124.185.18