作者JordanXD (豪)
看板PHP
标题[请益] 关於regular expression抓取网页资料的问题
时间Sun Aug 1 22:51:51 2010
想请问各位版大
PHP的regular expression有办法在NOT("^")後面放中文字吗?
目前我只要在"^"後面加中文都没办法抓出我想要的
编码我也已经改成UTF-8了
请问是什麽问题呢??
还有有没有办法使用"^"来not一段string呢?
我试过^[一段string]
不过好像是错的
是需要什麽函式还是STRING有另一种写法呢??
以下连结是我想要抓取的网站其中一笔资料
http://ppt.cc/qkVC
目前是想要把【中文名称】到【序号】之间的全部分类抓取
这是我现在的写法
"/(【中[^<]+)<\/p><p>(【英[^<]+)<\/p><p>(【类[^<]+)<\/p><p>(【说明】:[^<br]+"
请问我该如何修改我的regular expression呢?
不好意思小弟我最近才开始研究网页抓取
还烦请各位高手指教一下
谢谢:)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.116.101.39
1F:推 juan19283746:帅哥 08/02 02:59
※ 编辑: JordanXD 来自: 140.116.101.39 (08/03 00:08)
2F:推 EragonJ:/【(.*?)】([^【]*)/s 自己把</p><p>滤掉罗 08/03 00:18
3F:→ EragonJ:专题加油 08/03 00:18
4F:推 kobe04262002:!帅哥 08/03 14:26
5F:→ JordanXD:怎麽都自己人= = 08/04 23:50
6F:推 upp818:都自己人耶! 08/04 23:50
7F:推 juan19283746:所以解决了吗= =? 08/05 12:33
8F:推 upp818:大致OK了吧XD 原PO睡爽爽... 08/05 14:52
9F:推 tp6m4xup6:哈哈 05/02 15:03