作者jackjenny (痛苦)
看板Python
标题[问题] 爬虫网站
时间Wed Oct 14 01:44:38 2020
请教大家有关爬虫问题
我有爬虫各航空公司的货物运单状态
甲去大陆购物 可从业者提供的报关单、主提单、副提单 查到包裹状态
例如:飞机起飞与否等资讯、清关状态
这是华航的CARGO 货况查询 网站
https://reurl.cc/5qKZzq
因为有JS所以利用selenium+BeautifulSoup 可以轻松爬到任何html资料
我不是用path下去定位而是抓取id找想要的到资料
但有些id长这样:
ContentPlaceHolder1_rpFlightEvent_lblWgt_0
ContentPlaceHolder1_rpFlightEvent_lblPcs_0
ContentPlaceHolder1_rpFlightEvent_lblArrTime_0
ContentPlaceHolder1_rpFlightEvent_lblOff_0
Q1.id尾数都是无意义的乱码字母与数字组成
我这次可以轻松爬到资料,下次该怎防范尾数产生新的乱码id了?
Q2.如Q1. 网站这样做 算是反爬虫手段之一吗?
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 118.167.210.16 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1602611080.A.48D.html
1F:推 totte: 这应该是aspnet写的 你爬的是grid资料? 10/14 02:31
2F:→ totte: 印象中grid每列里的控制项会长一个数字 10/14 02:31
3F:推 mychiux413: A2. 我没点进去,但那可能是前端框架如react编译後的 10/14 11:42
4F:→ mychiux413: 产物,下次他再编译上新版前端,乱码可能就会变,确 10/14 11:42
5F:→ mychiux413: 实可以防爬虫,但你就不要抓id就好 10/14 11:42
6F:→ mychiux413: 只是他最尾是0比较奇怪,通常会是一串hash code 10/14 11:43
7F:推 rexyeah: execute script to find substr of id and return? 10/14 12:03
8F:→ jackjenny: 谢谢楼上 我先做一下功课楼上提到关键字 10/14 14:41
9F:→ jackjenny: 1F 1.我看这是ASPNET没错 2.我看前端码没有grid 10/14 18:32
10F:推 single4565: 用正则表达式看看能不能解决? 10/14 18:33
11F:→ jackjenny: 关键字 应该不是grid 10/14 18:33
12F:→ jackjenny: 3F 1.只有绑id了 连class都没有 10/14 18:35
13F:→ jackjenny: 10F 我来研究正则是看看好了 担心下次爬不到 10/14 18:36
14F:→ jackjenny: 7F 不太明白你意思 我已经可以轻松抓取id资料 10/14 18:38
15F:→ jackjenny: 但这id好像是乱码产生 担心下改抓不到Y 10/14 18:39
16F:推 ToastBen: 推7F大大 定位父元素往下找 10/14 19:16
17F:推 TakiDog: Xpath很好用 10/14 22:59
18F:→ boboye: 可以利用regular去爬前面那些固定的字 10/15 10:06
19F:推 stillcolor: 这情况就用xpath,算是最快解决的方式了吧 10/15 11:42
20F:→ kobe8112: 如推文所述,我也习惯用Xpath定位,但你举的这几个例子 10/15 15:09
21F:→ kobe8112: ,看起来跟「乱码」有点差距,是指哪几个字是乱码啊? 10/15 15:10
22F:推 stillcolor: 原po应该是想要表达『随机码』才对吧 10/16 10:12
23F:→ kobe8112: 我意思就是我看不出来哪里乱码/随机,他举的例子看起来 10/16 17:50
24F:→ kobe8112: 是有意义的缩写不是? 10/16 17:50