作者yeeche (yeech)

看板Python

标题

[问题] 新手学python想抓网页资料

时间Thu Jul 25 23:01:44 2019

各位前辈好小弟是python新手程度应该很low 想请教一下用python抓网页的功能 http://ww2.money-link.com.tw/etf/Ranking2.html 我想抓取这个网页的资讯目前有看网路自学基本的python 包含list dictionary等我是看py4e 也是coursera里面那个Michigan python教学也看网路学会panda还有简单的 beautiful soup 抓一些比较简单的网站资料可是这个网站的资讯好像是属於动态资料原始网页资料并没有这些数据上网看了一下找到类似的教学也是 : beautiful soup https://www.youtube.com/watch?v=FSH77vnOGqU&t=726s

但是可能对我来说有点太跳级了实在很难懂查了版上的资讯好像还有selenium scrapy等等想请教一下各位高手以如果要抓这种网页到底需要懂哪些工具比较好呢? 有哪些适合新手的教学网站会教关於抓取这种网站的? 可否给点指教 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.78.227.126 (台湾) ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1564066908.A.C90.html

1^F：→ alvinlin: 刚好我最近也在研究类似的内容。我花了点时间看你的内容 07/25 23:40

2^F：→ alvinlin: 。其实这个网页不太难。它已经在後端跑完了，前端只是HT 07/25 23:40

3^F：→ alvinlin: ML而己。 07/25 23:40

4^F：→ alvinlin: 首先你要去研究一下HTML的结构。然後如果还有时间，看一 07/25 23:43

5^F：→ alvinlin: 下JavaScript。你的Ytb的那个连结只是和你说如果你的网 07/25 23:43

6^F：→ alvinlin: 页前端有JavaScript在执行，你用来抓网页的内容会变得不 07/25 23:43

7^F：→ alvinlin: 同，因为JS会改变网页呈现的内容。 07/25 23:43

8^F：→ alvinlin: 总结就是，python把很多东西简化了，但如果你不了解它帮 07/25 23:47

9^F：→ alvinlin: 你简化的东西，你还是得先花时间了解它才知道怎麽运用。 07/25 23:47

10^F：→ alvinlin: 以你的例子，bs4,scrpy,它的背後还是HTML的结构，如果你 07/25 23:47

11^F：→ alvinlin: 不了解DOM tree, HTML elements, Tags, nodes, 这些都值 07/25 23:47

12^F：→ alvinlin: 得你很快的去看一下再回来爬虫这个题目。 07/25 23:47

13^F：→ alvinlin: 我前阵子刚好在读jJavaScript，有些也看不太懂，所以去 07/25 23:50

14^F：→ alvinlin: 翻了HTML的书，两相对照就看懂了。提供你参考。 07/25 23:50

15^F：推 TitanEric: 推楼上用心回答~ 07/25 23:56

16^F：→ vi000246: 看起来是用F1_10_ETFData.json来render页面的 07/26 01:41

17^F：→ vi000246: 1.开F12看Network->XHR页签使用的api 07/26 01:42

18^F：→ vi000246: 2.用js解析json里的资料应该就能抓到你要的东西了 07/26 01:43

19^F：推 yummy8765: 推1~n楼用心回答 07/26 06:51

20^F：推 powyo: 不嫌速度慢的话用selenium最简单 07/26 09:23

21^F：→ powyo: selenium 自动化操作只要搞懂里面的doom物件名称就好 07/26 09:24

22^F：→ yeeche: 太感谢楼上所有大大的认真说明 07/26 09:48

23^F：→ yeeche: 所以听起来我要先搞懂的关键字 07/26 09:49

24^F：推 powyo: 最简单用chrome 按F12看就好 07/26 09:50

25^F：→ yeeche: 1. HTML 2. doom 3. javascript 然後再去看爬虫对吗? 07/26 09:52

26^F：推 powyo: https://i.imgur.com/M0l0F6A.png 07/26 09:53

27^F：→ powyo: chrome开起来按F12 就能看到里面的元素 07/26 09:53

28^F：→ powyo: 把你要抓的部分看他是哪层元素包起来 07/26 09:54

29^F：→ yeeche: 谢谢powyo大大在请问一个丢脸的小问题 07/26 09:55

30^F：→ powyo: 用selenium 可以指定抓取元素 07/26 09:55

31^F：→ yeeche: 如果我看到我想要抓的数字但是我却还是搞不懂该怎麽处理 07/26 09:55

32^F：→ yeeche: 我除了看selenium之外是不是要先去恶补其他knowledge? 07/26 09:56

33^F：→ yeeche: 我的程度只到如果数字是直接写在HTML上我自己会抓了 07/26 09:57

34^F：→ yeeche: 透过简单的抓取还有string处理只会降(程度真的低..) 07/26 09:57

35^F：推 powyo: 不懂你的意思你是要抓取全部的资料? 还是特定的 07/26 09:58

36^F：→ yeeche: 我会先去看看能否看懂selenium 谢谢大家的回覆 07/26 09:59

37^F：→ powyo: 看起来这网站会定时更新资料所以抓到的也不是最新的 07/26 09:59

38^F：→ yeeche: 也非常感谢 alvinlin vi000246 热情回应 07/26 10:00

39^F：→ yeeche: 对我要每隔一段时间抓取 like 5min酱子 07/26 10:01

40^F：→ yeeche: 抓取那些数字的资料就是我以为的动态资料 07/26 10:01

41^F：→ yeeche: 我不用很即时甚至15min抓一次也很OK 07/26 10:02

42^F：推 powyo: 那就用个timer去抓取就好啊甚至用排程也可以 07/26 10:05

43^F：→ yeeche: 对我是打算用timer 07/26 10:08

44^F：→ jwolf1211: 是打算写投资用的？ 07/30 19:21

45^F：→ salmon12706: 工研院人工智慧课程推荐https://reurl.cc/4RDRaK 06/29 16:26

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

Python 板

[问题] 新手学python想抓网页资料

热门看板

赞助商连结