作者Daira (Daira)
看板perl
标题[问题] 我想要比对不在 HTML Tag 之中的文字
时间Sat Jun 10 01:48:22 2006
我想在一篇 HTML 的原始码中搜寻并取代资料
比方说我可能要找 'HTML' 这个 pattern,然後取代成 '超文字标记语言' 之类的
但是我希望找到的是在画面上会显示的 HTML 四个字元
而不要它比对到 <html> 或是 </html> 这些 tag 中的 html
但是我一直想不出 Regular Expression 要怎麽写
所以上来请教大家 >"<
另外,还有一个问题是,如果我想找的是 'm' 这个 pattern
可是在 Big5 编码下,他会比对到 '然' 这个中文字(因为下位元码是 'M')
我目前的想法是写成
/((?:[\x01-\x7F]|^)(?:[\x80-\xFF]{2})*|^)m/
这样去比对
大致上还堪用,可是有一个问题是
如果出现连续的两个 'm',第二个 'm' 会没有办法被比对到
也是想请教大家有没有解决办法...
感谢大家...
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 203.67.120.114
※ 编辑: Daira 来自: 203.67.120.114 (06/10 15:03)