作者reader (读者)
看板CSSE
标题Re: [问题] 爬全球的网站大概要花多久?
时间Sun Aug 27 12:20:48 2006
※ 引述《StubbornLin (Victor)》之铭言:
: 我最近在写网页爬虫,不过目前只针对特定资料
: 我一直有一个疑问,如果像Google那样爬全球的网页
: 大概要多少台什麽等级的机器,和网路环境
: 在多久的时间内可以爬完,爬行过程中更新的就不去管了
你可以先计算网路频宽,目前中小型 ISP 的机房,对外多在 OC-12 (622Mb)
以下,内部则是用 Gigabit Ethernet 为主,所以一台机器能使用 50MB/s 的
频宽,大概就是一个限度了。
也因此,你可以想办法估计全球网页的总资料量,再考虑网路的极限速率,再
看看软硬体效能是否能达到这个极限。
此外,第一次爬资料和第二次爬资料不一样,第二次和第三次又不一样,需要
计算单位时间更新量才行。
如果 Yahoo 的估计量是正确的, 20G 的网页,光是检查有没有更新,大约就要
花上 10TB 左右的流量,更新的总资料量则和时间有关。
若要一周检查一次,更新率为 1%, 平均网页大小为 50KB, 则总共的资料量为
(20G * 0.01 * 50KB + 10TB) / 50MB = 400K sec, 一周有 600K sec 以上。
所以理论上,只要一台好机器就可能在一周内爬完全球网页。只是若要收敛到
这个地步,需要较长的时间。我就不去计算了。
当然,台湾是承受不了这个国际流量的,主机最好是放在美国 ISP 机房里。
也最好不要只用一台机器。
以现在美国 1TB 流量 100 美元计算,一个月花上 10K 美金可能跑不掉。
当然若每月 10K 美金就可能经营一家全球性的大型搜寻引擎,算起来其实是
极端便宜的。
--
我一直没有很把 Google 的资本力量放在眼里,就是因为运算力和频宽实在是
很便宜的东西,在网路世界中,技术的力量还是远大於资本的力量。而技术的
力量也不取决於人力资源,主要仍然在於智力的品质上,这也不是博士学位就
能保证的。
台湾人不是被吓大的,别被 Google 神话论唬住了。当初他们也不过就是两个
刚毕业的学生,我们反而应该认为「有为者亦若是」才对。
--
※ 编辑: reader 来自: 61.222.173.30 (08/27 12:24)
1F:推 PRAM:记得那两个google创办人并没有毕业吧 08/27 16:02
2F:推 come:google主机一买就是千百台 他们砸在主机上面的钱可不少 08/27 22:09
3F:推 ikari512:推最後一段 气度! 08/28 03:33
4F:推 ikari512:另外 我想不少人知道 google的server是在50万台以上 08/28 03:36
5F:→ ikari512:之前google建资料中心 就被拿出来和微软比 08/28 03:37