作者IsMe1086 (大頭)
看板PHP
標題[請益] 只擷取網頁中的中文字
時間Sun Apr 10 15:16:59 2011
我只想要擷取網頁中的中文字和中文的標點符號
想要把原始網頁檔案的所有標籤去掉
想說用preg_replace() 把所有英文和數字還有特殊符號通通弄掉
$pattern = "[A-Za-z...]" ; //會擺上所有英文和數字還有特殊符號
$html = "...";//放上我要的網頁
$string = file_get_contents($html);
echo preg_replace($pattern,"",$string);
結果跑出部分中文和部分亂碼- -" 那網頁編碼是big5
請問要怎麼改進? 或是有其他比較好的方式嗎?
--
不好意思 功力不夠 連發兩篇
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 124.12.5.191
1F:→ buganini:$pattern寫法不對 PCRE要加delimiter 04/10 15:58
2F:→ buganini:然後Big5不是ASCII-safe, 第二個byte有的會被刪掉 04/10 15:59
3F:→ buganini:簡單的方式還是轉成UTF-8處理完再轉回來 04/10 15:59
4F:→ buganini:或是自己刻一個funtion一個一個byte自己判斷處理 04/10 15:59
5F:→ IsMe1086:恩pattern是我忘了 我試試看你說的編碼處理 04/10 16:50
6F:→ IsMe1086:我找到strip_tags()這個function可以用了 只是java scrip 04/10 19:13
7F:→ IsMe1086:的文字還要自行處理 04/10 19:13
8F:推 asdd:如果網頁只有單純文字的話 file_get_contents() 應該也可以 04/11 13:40
9F:推 AizawaYuichi:如果直接讀取html,把<>標籤都拆掉呢? 04/12 14:22