作者kusoayan (玮哥)
看板PHP
标题[请益] 抓取网路上的资料存入DB
时间Sun Jan 15 16:40:13 2012
最近再写抓网路资料的程式
想请问一个问题
假设今天我要抓一批性质相同的资料
像是 300 个商品页面,或 300 个个人名片页面等等的
那我要每抓一个页面 分析完我要的资料後就 insert 到 DB 中
还是要全部抓完後再一次存入 DB 中会比较好?
如果一直执行 insert 会让速度变慢吗?
另外,因为要访问的页面太多,所以我是用多个
<iframe src="getdata?abc=123></iframe>
的方式去摹拟同步的方式,那这样如果我每个 iframe 里面都有 connect insert
等等的动作的话,会不会让 database 那边错乱阿QQ?
谢谢!
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 125.228.249.225
1F:推 LaPass:单纯insert应该不会 01/15 16:46
2F:→ LaPass:不过.....php适合写这个吗? = =a php没执行绪...不方便说 01/15 16:47
3F:推 kerash:只要不要把DB开开关关应该都差不多 01/15 20:56
4F:→ alpe:没必要, 执行同时会有其他工作让db loading变重吗? 01/16 00:16
5F:→ kusoayan:没必要的意思是不用把资料一次性存入? 01/16 00:35
6F:→ kusoayan:没有 都是抓资料->parse->insert 而已 01/16 00:35
7F:→ shadowjohn:资料库瞬间2000个insert都不是问题,重点是下载要分散 01/16 01:01
8F:→ shadowjohn:分散给不同ip、proxy去抓网页,写同一台DB ok的啦~ 01/16 01:03
9F:→ kusoayan:没分散会怎样吗QQ 01/16 12:44
10F:→ kusoayan:一批大约一千个页面访问量 总共有一百批 XDDDD 01/16 12:45
11F:→ shadowjohn:没分散的话,最好每几笔之间设个 sleep 避免被 ban ? 01/16 13:28
12F:→ mervynW:也要看对方有没有做DOS防御啊, 很多都没做的 01/16 13:58
13F:→ mervynW:不过还是要做个sleep比较好 01/16 13:59