作者yrabes (亚贝丝)
看板Python
标题[问题] 原始档内容和网页所见不同
时间Tue Mar 1 20:58:55 2022
新手 如果问题太简单请见谅QQ
---
最近在练习用BS抓资料 练习对象是台湾及时水情(
https://water.taiwanstat.com/ )
在测试的过程发现
如果直接按右键-->检视原始码
在原始码中会找到新山水库(基隆) 後面会接7001.1万立方公尺
但是在网页中,新山水库(基隆)的数字没有一个是7001.1万立方公尺,
有的数字反而是"有效蓄水量:955.50万立方公尺"
请问这是什麽原因?
我用BS抓资料 一直抓不到网页的资料 都是原始码中的资料
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 211.20.119.237 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1646139537.A.8A1.html
1F:→ a367560: 不太懂意思 有图片吗? 03/01 22:09
2F:→ OrzOGC: 有透过js啦,初学就用selenium吧 03/01 22:39
4F:→ yrabes: 第一张是网页看到的,第二章有画红线则是对应原始码的地方 03/01 22:51
5F:→ yrabes: @OrzOGC 好的,我再研究看看,感谢你 03/01 22:51
6F:推 lycantrope: request.get就会有你想要的东西了 03/01 22:52
7F:推 g919233: 同上面网友说使用Selenium或Playwright,或去找出它透过 03/02 06:10
8F:→ g919233: 哪个请求去取得这些原始码没有的资料 03/02 06:10
10F:→ niceguy: 不难 03/02 19:40
11F:推 crm123: 借这篇问 那种按下搜寻之後 要往下滚原始码才会跑出来的 03/02 22:13
12F:→ crm123: 要怎麽爬(不能用post 03/02 22:13
13F:推 geniusofgod: 回楼上 selenium 执行js 让页面往下滚,等到指定的 03/02 22:28
14F:→ geniusofgod: 内容出现後,再把当下页面的内容爬回来 03/02 22:28
16F:→ blc: chrome DevTool的network很好用,可以试试。 03/07 22:08