作者m7413005 (小鱼)
看板R_Language
标题[问题] 碰到有笔数限制的网站该怎麽办
时间Tue Oct 13 23:56:00 2020
大家好,不好意思我是小菜鸟,最近想要从司法院法学资料检索系统抓取特定法条相关的
判决书内容,发现网站会限制显示的笔数,例如总数2万笔的资料,前台只会显示500笔,
用R爬下来的资料,也只有500笔,在网路上爬了一阵子的文,找不太到相关的讨论,想请
教各位先进,该怎麽做才能抓到完整的资料呢?
先谢谢提点了!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.137.111.239 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1602604562.A.7C7.html
1F:推 locka: 有关爬虫的问题基本上任何程式语言都是一样的,就是模拟人 10/14 01:08
2F:推 locka: 的操作方式,例如全部两万笔第一页只显示前五百笔,你会去 10/14 01:09
3F:推 locka: 点下一页,那麽爬虫就是用程式码下参数去取得第二页之後的 10/14 01:09
4F:推 locka: 资料,这部分概念细节跟html技术比较相关。说了这麽多,还 10/14 01:09
5F:推 locka: 是建议你发问时明确一点,例如附上网址跟程式码范例,不然 10/14 01:09
6F:推 locka: 众版友也是爱莫能助:) 10/14 01:09
7F:→ andrew43: 司法院网站似乎是超过500笔则一律最多只给500笔,和分页 10/14 16:52
8F:→ andrew43: 造成的麻烦不太一样。我想这是无解的,只能先做更精确的 10/14 16:53
9F:→ andrew43: 查寻。 10/14 16:53
10F:→ locka: 只给500这点满奇怪的,意思是永远都搜寻不到500笔以後的资 10/14 17:30
11F:→ locka: 料吗? 10/14 17:30
12F:推 jack155861: 我爬过你必须做更精准查询 10/18 08:12
13F:→ jack155861: 而且司法站网站似乎很怕别人爬 三不五时改版... 10/18 08:13