作者nico831116 (P)
看板R_Language
標題[問題] Rselenium操作chrome爬取IE限定網頁問題
時間Wed Jun 17 09:39:45 2020
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
使用者(已經有用R 做過不少作品)
[問題敘述]:
情境1:
我想要抓取某個只能限定IE開啟的網頁。
狀況大體上是用IE開的話可以看到html下面有head>div>table等等,我想要抓table裡的
元素。
但是用chrome開的話只能看到head,下面就都沒有東西了。
情境2:
因為是公司的電腦有權限問題,我無法安裝IE的driver。
情境3:
Google driver可以安裝,我可以用Rselenium啟動chrome爬取網頁。
情境4:
我已嘗試在Chrome上安裝附加元件IE-tab,並使用Rselenium開啟。但由於IE-tab是模擬
器的關係,我無法抓取用IE-tab所顯示的網頁元素。
問題:
請問有什麼方法可以突破這個難關?
或者有什麼其他的方式與思路可以讓我使用chrome爬取IE限定網站,想請各位版大開示一
下……
2020/6/20更新
發現好像是因為該網頁只能使用IE文件模式7和8,而非瀏覽器模式的問題。
不曉得C
hrome有沒有辦法更改文件模式?
[關鍵字]:
Rselenium
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.52.193.11 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1592357987.A.8D4.html
1F:推 empireisme: 不然不要用R爬用python爬可以嗎06/17 17:30
嘗試過了,但公司電腦不給裝Python……QAQ
2F:→ andrew43: IE限定是怎麼個限定法?連HTML都不給嗎?06/17 18:07
因為是不能外傳的網頁,不好意思。
IE限定大概是用IE開的話可以看到html下面有head>div>table等等,我想抓table裡的元
素。
但是chrome開的話只能看到head,下面就都沒東西了。
3F:推 whs2009: 限定用IE開是因為和有ActiveX的元件還是server有方式辨06/17 19:57
4F:→ whs2009: 識client端採用chrome而block呢? 如果是透過user-agent06/17 19:57
5F:→ whs2009: 來block 其他瀏覽器可以嘗試去改chrome的user agent 或06/17 19:57
6F:→ whs2009: 是 Window name來避開XD06/17 19:57
個人感覺應該是元件的問題。
因為我也嘗試用了不同瀏覽器(火狐、或是用chrome 裝其他擴充元件),甚至IE本身,該
網站只有IE7跟IE8能顯示網站內容,用IE9以上一樣無法顯示。
※ 編輯: nico831116 (27.52.193.11 臺灣), 06/18/2020 11:22:53
※ 編輯: nico831116 (27.52.193.11 臺灣), 06/18/2020 11:38:54
※ 編輯: nico831116 (27.52.193.11 臺灣), 06/18/2020 11:45:18
7F:→ andrew43: 非IE但改過user-agent偽裝IE6/7也不行嗎?06/18 15:23
好像UA沒辦法,我試過Chrome裝User-Agent Switcher,也嘗試直接從Chrome的設定偽裝
成IE7,但都無法顯示出我要的內容。
※ 編輯: nico831116 (27.52.193.11 臺灣), 06/19/2020 13:44:45
8F:→ andrew43: 這就苦手了... 我自己也沒聽說過怎麼處理IE only問題06/19 13:55
※ 編輯: nico831116 (27.52.193.11 臺灣), 06/20/2020 10:53:02
9F:推 whs2009: 透過wdman package 的 IE driver 有辦法嗎 06/20 18:51