作者Andor (柠檬汁)
看板perl
标题Re: [问题] 我想要比对不在 HTML Tag 之中的文字
时间Mon Jun 19 18:02:58 2006
※ 引述《Daira (Daira)》之铭言:
: 我想在一篇 HTML 的原始码中搜寻并取代资料
: 比方说我可能要找 'HTML' 这个 pattern,然後取代成 '超文字标记语言' 之类的
: 但是我希望找到的是在画面上会显示的 HTML 四个字元
: 而不要它比对到 <html> 或是 </html> 这些 tag 中的 html
: 但是我一直想不出 Regular Expression 要怎麽写
: 所以上来请教大家 >"<
: 另外,还有一个问题是,如果我想找的是 'm' 这个 pattern
: 可是在 Big5 编码下,他会比对到 '然' 这个中文字(因为下位元码是 'M')
: 我目前的想法是写成
: /((?:[\x01-\x7F]|^)(?:[\x80-\xFF]{2})*|^)m/
: 这样去比对
: 大致上还堪用,可是有一个问题是
: 如果出现连续的两个 'm',第二个 'm' 会没有办法被比对到
: 也是想请教大家有没有解决办法...
: 感谢大家...
/(>[^<]*)HTML/$1超.../g
前提是<和>本身不会出现在tag外/里面...应该不会有吧?我不熟html =_=
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 143.89.144.107
※ 编辑: Andor 来自: 143.89.144.107 (06/19 18:04)
1F:推 LiloHuang:使用此测资就不行 <HTML>HTMLHTML 应该说误解题意了 06/19 18:20
2F:→ Andor:喔...那用 1 while(s/.../.../g); 好噜 06/19 20:29