作者chan15 (ChaN)
看板PHP
标题[请益] 自己刻 RSS Reader
时间Sun Feb 8 15:26:30 2015
最近心血来潮想要练习写一个公司用的 RSS Reader,目的就是抓取一
些指定的网址之後将内容汇整进来,并且标示已读未读而已,想到几
个问题想请教大家
1. 资料撷取时间:
我目前个人使用 Feedly,根据观察的结果,我猜网址资料的开始,应
该是从第一个加入此网址的人起始,譬如说有个 Blog 叫
http://ww
w.aaa.com 从 2007 年开始,A 是在这个 RSS Reader 第一个使用该
网址的人,使用时间是 2014-11 月份,於是 Server 便会从这段时间
开始定期执行 cron job 去扫资料,可是这样跑扫描时间间距不能太
长,否则的话如果是个更新频繁的网站会有掉资料的机会,可是如果
database 有几千几万个网站,这样跑起来也是挺恐怖的。
2. 资料撷取问题:
可以在某些确定是有名的 Blog 形式例如说(blogger)可能利用 lo
gic 去找出对应的 RSS 档案或者是 XML 撷取资料 ,可是像是一些挂
有个人 domain 的,例如像
http://blog.littlelin.info/,要怎麽
check 或 convert 他成为 seed 呢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.234.173
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/PHP/M.1423380393.A.F60.html
※ 编辑: chan15 (122.116.234.173), 02/08/2015 15:33:39
1F:→ MOONRAKER: 阿不就user各自登记URL然後server逐个送request看有没 02/08 16:47
2F:→ MOONRAKER: 有RSS内容这样 我跟你若是订同一个网址可以只poll一次 02/08 16:48
3F:→ chan15: 应该是定期扫吧,request 才扫难免掉资料 02/08 18:51
4F:→ MOONRAKER: 当然马是定期送request 怎麽可能request才扫 02/09 11:28