作者StarTouching (抚星)
看板Perl
标题[问题] does not map to big5-eten
时间Tue Mar 22 03:59:41 2011
我现在在玩HTML Parser模组
不过我发现我抓完网页尝试印出某些资料时出现这个讯息:
"\x{00a0}" does not map to big5-eten at.....
我查了一下 00a0在unicode中是 「无断行空格」
big5疑似不支援
我的Perl档开头有加
use encoding 'big5', Filter=>1;
其实我看不懂这行的细节, 只是抄骆马书翻译者的译注。
我想问, 我自己想到几个解决方向 何者可行?
1.
让整个perl都支援unicode, 但对parse网页来说 可能需要进一步判断网页编码
另外parser本身是否可以判读unicode也可能会是在我们无力控制的范围
2.
只要能在程式中能识别出这样的内码, 那麽我们就可以选择 避开
或是以big5既有的字符取代印出 (例如以一般空格取代无断行空格)
我测试了 s/\x{00a0}// 可以成功
但会有个额外的问题:
这个做法能延伸到unicode的一段范围吗?
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 111.243.163.36
※ 编辑: StarTouching 来自: 111.243.163.36 (03/22 05:04)