作者alpe (薛丁格的猫)
看板PHP
标题Re: [请益] 关於正规表示法
时间Thu Dec 21 22:36:48 2006
※ 引述《skylock (他娘的!)》之铭言:
: 网址部分已经解决
: 另外我还想要取得网页的一些资料
: ex:http://tw.page.bid.yahoo.com/tw/auction/1147875268
: 1.上方橘色底的商品名称
: 2.拍卖档案里的目前出价,剩余时间,出价增额,运送费用
: 我是用file_get_contents()这函数抓取网址的原始码
: 但对正规表示法实在有点头痛
: 不知道该怎麽写呢@@?
就我在工作遇到的来说... ...
教你几个步骤:
1. 看你要的资料, 有没有什麽特殊规则可捞出来
或是有什麽是可以清掉一堆废物的
2. 没有可以直接捞的方式就, 开始清废物吧...
3. 边清边观察... 像我, 会直接<xmp> html </xmp>输出来看
好用的 prel RegExp
$html = preg_replace('/<[^>]*>/si', '', $html);
清掉 所有html tag
$html = preg_replace('/<(head|from|style|script|noscript)[^>]*>(.*?)
<\/\1>/si', '', $html);
清掉 这几个 <html tag> 到 </html tag> 的文字
--
如果对现世有所不满的话,就改变自己
如果不想的话,就封住你的耳目... 闭嘴孤独的活下去
攻壳机动队
Stand Alone Complex
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 210.58.144.121
1F:→ alpe:btw. 用什麽方式抓 html 都是html, 除了抓不到 (茶) 12/21 22:38