作者IsMe1086 (大头)
看板PHP
标题[请益] 只撷取网页中的中文字
时间Sun Apr 10 15:16:59 2011
我只想要撷取网页中的中文字和中文的标点符号
想要把原始网页档案的所有标签去掉
想说用preg_replace() 把所有英文和数字还有特殊符号通通弄掉
$pattern = "[A-Za-z...]" ; //会摆上所有英文和数字还有特殊符号
$html = "...";//放上我要的网页
$string = file_get_contents($html);
echo preg_replace($pattern,"",$string);
结果跑出部分中文和部分乱码- -" 那网页编码是big5
请问要怎麽改进? 或是有其他比较好的方式吗?
--
不好意思 功力不够 连发两篇
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 124.12.5.191
1F:→ buganini:$pattern写法不对 PCRE要加delimiter 04/10 15:58
2F:→ buganini:然後Big5不是ASCII-safe, 第二个byte有的会被删掉 04/10 15:59
3F:→ buganini:简单的方式还是转成UTF-8处理完再转回来 04/10 15:59
4F:→ buganini:或是自己刻一个funtion一个一个byte自己判断处理 04/10 15:59
5F:→ IsMe1086:恩pattern是我忘了 我试试看你说的编码处理 04/10 16:50
6F:→ IsMe1086:我找到strip_tags()这个function可以用了 只是java scrip 04/10 19:13
7F:→ IsMe1086:的文字还要自行处理 04/10 19:13
8F:推 asdd:如果网页只有单纯文字的话 file_get_contents() 应该也可以 04/11 13:40
9F:推 AizawaYuichi:如果直接读取html,把<>标签都拆掉呢? 04/12 14:22