作者samrt5566 (我不是聪明56)
看板Web_Design
标题[问题] 如何改善ptt爬虫速度?
时间Sun Oct 20 08:51:38 2019
嗨大家好
小弟最近无聊用nodejs和html写了一个简单的ptt爬虫
目前基本上换页和换版都是让爬虫再去爬一次下一页
但发现这样速度实在是惨不忍赌
逛了各大网页版ptt
总觉得他们应该是用不同的方式在处理
请问各位大大 如果在写这种网页版有什麽诀窍吗
还是说应该用不是爬虫的方式去写呢
感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.200.58.91 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Web_Design/M.1571532700.A.23A.html
推 shter: 用 telnet 去爬
10/20 11:51
喔喔 来研究一下
1F:推 vi000246: 他们应该都是爬好存在自己的DB了10/20 12:12
不过我看更新速度蛮快的 是固定时间直接爬所以板块吗
2F:→ samchung: 先取出文章网址,直接爬网页就省下换页效能不佳的问题了10/20 15:39
看来是要事先抓好下一页?
※ 编辑: samrt5566 (42.76.102.12 台湾), 10/21/2019 00:51:35