作者JordanXD (豪)
看板PHP
標題[請益] 關於regular expression抓取網頁資料的問題
時間Sun Aug 1 22:51:51 2010
想請問各位版大
PHP的regular expression有辦法在NOT("^")後面放中文字嗎?
目前我只要在"^"後面加中文都沒辦法抓出我想要的
編碼我也已經改成UTF-8了
請問是什麼問題呢??
還有有沒有辦法使用"^"來not一段string呢?
我試過^[一段string]
不過好像是錯的
是需要什麼函式還是STRING有另一種寫法呢??
以下連結是我想要抓取的網站其中一筆資料
http://ppt.cc/qkVC
目前是想要把【中文名稱】到【序號】之間的全部分類抓取
這是我現在的寫法
"/(【中[^<]+)<\/p><p>(【英[^<]+)<\/p><p>(【類[^<]+)<\/p><p>(【說明】:[^<br]+"
請問我該如何修改我的regular expression呢?
不好意思小弟我最近才開始研究網頁抓取
還煩請各位高手指教一下
謝謝:)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.101.39
1F:推 juan19283746:帥哥 08/02 02:59
※ 編輯: JordanXD 來自: 140.116.101.39 (08/03 00:08)
2F:推 EragonJ:/【(.*?)】([^【]*)/s 自己把</p><p>濾掉囉 08/03 00:18
3F:→ EragonJ:專題加油 08/03 00:18
4F:推 kobe04262002:!帥哥 08/03 14:26
5F:→ JordanXD:怎麼都自己人= = 08/04 23:50
6F:推 upp818:都自己人耶! 08/04 23:50
7F:推 juan19283746:所以解決了嗎= =? 08/05 12:33
8F:推 upp818:大致OK了吧XD 原PO睡爽爽... 08/05 14:52
9F:推 tp6m4xup6:哈哈 05/02 15:03