作者iltet2003 (屁毛)
看板Google
标题[询问] 试算表IMPORTXML的xpath_query用法
时间Sun Dec 18 11:34:55 2016
hi 大家好,
小弟目前想用google试算表自动抓取网页的某个特定栏位
看起来IMPORTXML(url, xpath_query)可以符合我的需求
但卡在xpath_query这参数怎麽用都不顺
举例来说
我要抓网页:
https://statementdog.com/analysis/tpe/2324#2324
的最新3年平均现金股息殖利率: 6.78
下的参数是
url:
https://statementdog.com/analysis/tpe/2324#2324
xpath_query: //*[@id='dataTable']/table/tbody/tr[3]/td[72]
这会导致汇入内文空白的error
说明一下上述的xpath_query是来自於:
1. 使用chrome浏览器开启该网页
2. 把6.78框起来点右键 => 按检查
3. 把反蓝的那一行语法点右键 => copy => copy xpath
4. 得到//*[@id="dataTable"]/table/tbody/tr[3]/td[72]
5. 把上述xpath中的双引号改成单引号
得到//*[@id='dataTable']/table/tbody/tr[3]/td[72]
6. 使用chrome套件xpath helper验证5.的xpath的确可以取得6.78这个值
所以看起来这个xpath是对的
想请版上高手解惑以下问题
1. 为何输入到试算表後会得到"汇入内文空白"的error?
2. 如何解决问题1?
3. 使用试算表,是否有更简易快速的作法能做到这件事?
先行谢过!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 122.116.232.81
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Google/M.1482032098.A.83A.html
1F:→ bestpika: 因为这网页是动态网页... 12/19 11:20
2F:→ bestpika: 而且资料是 js 去捞的 12/19 11:20
3F:→ bestpika: Google 试算表应该不会去执行 js 12/19 11:21
4F:→ bestpika: Google 那个应该只能抓 ctrl + u 看原始码有的资料 12/19 11:25
5F:推 Lierl: 这几天也在弄这个…你只要把『//*[@id="dataTable"]』括号 12/19 19:04
6F:→ Lierl: 内的删除应该就可以了 12/19 19:04
7F:→ iltet2003: 楼上大哥,我用/table/tbody/tr[3]/td[72]也不行... 12/19 20:58
8F:→ Lierl: 那就只能换个网站查询了 12/20 09:34
9F:推 cgabear: 把tbody拿掉试试 08/08 01:32