作者nico831116 (P)
看板R_Language
标题[问题] Rselenium操作chrome爬取IE限定网页问题
时间Wed Jun 17 09:39:45 2020
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
使用者(已经有用R 做过不少作品)
[问题叙述]:
情境1:
我想要抓取某个只能限定IE开启的网页。
状况大体上是用IE开的话可以看到html下面有head>div>table等等,我想要抓table里的
元素。
但是用chrome开的话只能看到head,下面就都没有东西了。
情境2:
因为是公司的电脑有权限问题,我无法安装IE的driver。
情境3:
Google driver可以安装,我可以用Rselenium启动chrome爬取网页。
情境4:
我已尝试在Chrome上安装附加元件IE-tab,并使用Rselenium开启。但由於IE-tab是模拟
器的关系,我无法抓取用IE-tab所显示的网页元素。
问题:
请问有什麽方法可以突破这个难关?
或者有什麽其他的方式与思路可以让我使用chrome爬取IE限定网站,想请各位版大开示一
下……
2020/6/20更新
发现好像是因为该网页只能使用IE文件模式7和8,而非浏览器模式的问题。
不晓得C
hrome有没有办法更改文件模式?
[关键字]:
Rselenium
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 27.52.193.11 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1592357987.A.8D4.html
1F:推 empireisme: 不然不要用R爬用python爬可以吗06/17 17:30
尝试过了,但公司电脑不给装Python……QAQ
2F:→ andrew43: IE限定是怎麽个限定法?连HTML都不给吗?06/17 18:07
因为是不能外传的网页,不好意思。
IE限定大概是用IE开的话可以看到html下面有head>div>table等等,我想抓table里的元
素。
但是chrome开的话只能看到head,下面就都没东西了。
3F:推 whs2009: 限定用IE开是因为和有ActiveX的元件还是server有方式辨06/17 19:57
4F:→ whs2009: 识client端采用chrome而block呢? 如果是透过user-agent06/17 19:57
5F:→ whs2009: 来block 其他浏览器可以尝试去改chrome的user agent 或06/17 19:57
6F:→ whs2009: 是 Window name来避开XD06/17 19:57
个人感觉应该是元件的问题。
因为我也尝试用了不同浏览器(火狐、或是用chrome 装其他扩充元件),甚至IE本身,该
网站只有IE7跟IE8能显示网站内容,用IE9以上一样无法显示。
※ 编辑: nico831116 (27.52.193.11 台湾), 06/18/2020 11:22:53
※ 编辑: nico831116 (27.52.193.11 台湾), 06/18/2020 11:38:54
※ 编辑: nico831116 (27.52.193.11 台湾), 06/18/2020 11:45:18
7F:→ andrew43: 非IE但改过user-agent伪装IE6/7也不行吗?06/18 15:23
好像UA没办法,我试过Chrome装User-Agent Switcher,也尝试直接从Chrome的设定伪装
成IE7,但都无法显示出我要的内容。
※ 编辑: nico831116 (27.52.193.11 台湾), 06/19/2020 13:44:45
8F:→ andrew43: 这就苦手了... 我自己也没听说过怎麽处理IE only问题06/19 13:55
※ 编辑: nico831116 (27.52.193.11 台湾), 06/20/2020 10:53:02
9F:推 whs2009: 透过wdman package 的 IE driver 有办法吗 06/20 18:51