作者oiolong (龙龙龙)
看板PHP
标题[请益] 如果我想要手动抓下一个网站要如何开始?
时间Thu Jul 13 10:08:11 2017
请问一下
我想要把一个网站里面的所有资讯拿下来到资料库里面
我要怎麽开始呢?
google 过有很多 github 的 source code
但由於是初学者,想要自己造轮子
我的构思大概是这样
1 用 curl 去拿到 sourcecode
2 用 php 去分析内容 (regular expression or xpath or .... ?)
3 存入db
目前卡在2 的选型上面,
想请教版上的大大们
哪种方式比较好呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.75.186.160
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PHP/M.1499911694.A.89A.html
1F:→ MOONRAKER: 以2而言,弄一个HTML parser应该比较方便 07/13 10:30
2F:推 shadowjohn: 2 有 simplehtmldom、phpquery 可以用,re稍累 07/13 11:04
3F:推 shadowjohn: 简单的用getBetween就好了,php manual满多人分享 07/13 11:06