作者DarkKiller (System hacked)
看板Perl
标题Re: [问题] does not map to big5-eten
时间Tue Mar 22 12:48:41 2011
※ 引述《StarTouching (抚星)》之铭言:
: 让整个perl都支援unicode, 但对parse网页来说 可能需要进一步判断网页编码
: 另外parser本身是否可以判读unicode也可能会是在我们无力控制的范围
如果你是透过 HTTP::Response 取回资料,透过 decoded_content 可以取得 perl
internal encoding,再转成 utf8:
my $data = Encode::encode('utf8', $response->decoded_content);
: 只要能在程式中能识别出这样的内码, 那麽我们就可以选择 避开
: 或是以big5既有的字符取代印出 (例如以一般空格取代无断行空格)
: 我测试了 s/\x{00a0}// 可以成功
: 但会有个额外的问题:
: 这个做法能延伸到unicode的一段范围吗?
用 Encode::from_to($data, 'utf8', 'utf8') 硬转,强制把 $data 滤乾净...
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 210.242.135.97