作者judark (禽兽)
看板Network
标题[问答] 想要自学浏览器与网站的交互机制
时间Mon Oct 17 17:10:57 2022
最近在自学网路爬虫,一开始用BeautifulSoup
抓一些简单的静态网页没有问题,抓下来一大串html
我可以用re去解开来一个一个看
但对於需要更进阶操作的网站,就显得有些吃力
我知道可以进一步去学习Selenium或Scrapy
但在那之前,我想先学习一些网站的基本原理
市面上的书通常只会教傻瓜式的架站
我想了解的是,我打开浏览器,F12开後台
Network页面里面的各种机制
像是浏览器式怎麽知道要怎麽下request
网站response的格式是从哪边取得,怎麽知道要怎麽解
请问有推荐的详细教学网站或书籍吗?
感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 124.218.11.106 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Network/M.1665997859.A.A0A.html
1F:→ LeonH: 可以去认识一下 HTTP 10/17 22:31
2F:→ CP64: 往下可以看 HTTP/HTTPS 跟再下去一点的 TCP/UDP 10/19 04:10
3F:→ CP64: 往上可以看基本的 HTML5/JavaScript/CSS 以及 DOM 相关 10/19 04:11
4F:→ CP64: 往上的部份 在 Mozilla 的 MDN 上可以找得到 10/19 04:13
5F:→ judark: 感谢CP64的指引 10/20 08:41
6F:推 pichubaby: 英文吃的动的话想打好基础就去看RFC 我从2616看的 10/23 18:57
7F:→ pichubaby: 然後现在都有HTTPS了,所以比十年前困难一些 10/23 18:58
8F:→ pichubaby: 但是Wireshark还是很棒的工具 10/23 18:58