作者neil0123 (wow)
看板Google
标题[询问] IMPORTXML&HTML 限制问题
时间Mon Aug 2 02:22:31 2021
Hi ALL
小弟最近想做个资料分析,想抓一些yahoo 上的新闻回来分析
目前想用这个网址
https://tw.news.yahoo.com/world
所以有几个问题,想请问
1. importxml 好像有网址长度的限制, 有什方式可解决?
系统说:指定网址内容的资源超出大小上限。
https://imgur.com/QpjwYsD
2. importxml or importhtml 有什办法可取得资料时又同时取得网址?
又或者有什其它参数or 工具可取得?
https://imgur.com/ynz7L5x
3. importhtml 会只抓第一页资料,有什方式可以让它也会向下滚动,
可以去抓第二页以上的资料?
像是
https://tw.news.yahoo.com/world,他预设只能显示一页资料,可
必需要侦测到下滚的动作,才会显示第二页的资料。
4. importxml or importhtml抓的资料,会同一格去显示多行的资料,有什
指令可以让他切成多行?
请多指教,谢谢。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.231.99.151 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Google/M.1627842154.A.2C0.html
1F:推 microloft: 1. 超出大小的是网页内容,不是网址 08/02 09:08
2F:→ microloft: 2. 用 XPath 自行筛选出超连结的 href 属性 08/02 09:10
3F:→ microloft: 3. 这种动态载入的网页,要去找背後 XHR 的网址跟参数 08/02 09:18
4F:→ microloft: 然後再用该网址跟参数去抓资料 08/02 09:18
5F:推 PsMonkey: 考虑用传统程式语言的方式去解决吧,不然 AppSheet 也好 08/02 20:06
6F:→ PsMonkey: ㄟ等等,不是 AppSheet,我是说指令码编辑器.. 08/02 20:08
7F:→ neil0123: 感谢两位,偶会把他写成AppScript,只是XHR还找不到范例 08/02 23:34
8F:→ neil0123: 还不清楚要怎看XHR的网址跟参数 08/02 23:36
9F:推 PsMonkey: 最直接的方式就是用 Chrome DevTool 看 network 08/03 05:45
10F:→ PsMonkey: 最保险的方式是从上面的方式再去追 source code 怎麽写 08/03 05:47
11F:→ PsMonkey: 但是有很高的机率不是你想像的那样,除非 importXXX 08/03 05:48
12F:→ PsMonkey: 不是我想像的那样 XDDDD(谜之声:哪样?) 08/03 05:48