作者x9060000456 (你好)
看板R_Language
标题[问题] Google play 评论所有爬虫(Crawler)
时间Thu Nov 23 00:32:12 2017
- 问题:
各位大神前辈大大们好, 问题如下:
Google play '所有'评论抓取疑问,
想爬取如下图之'所有'评论
https://imgur.com/a/zpxnf
[问题叙述]:
Google play 中用户对於 APP 的评论,
Google限制只能抓取前40笔,
参照 stack overflow 的 script後,
却不能如期抓取任何内容.
另外, 发现 Google 找寻其他方法时,
Python的大多解法, 最多可以抓取500评论,
但依循其想法, 在 R 的 script 中,
Request refer 却怪怪的,
故特此恳求版上的大大能指点迷津!
[程式范例]:
library(httr)
library(stringr)
baseUrl <- '
https://play.google.com/store/getreviews?authuser=0'
urls <-
'
https://play.google.com/store/apps/details?id=com.gravity.ro.and&hl=zh-TW'
dataJson <- GET(baseUrl, add_headers(Referer = urls, 'accept' = '*/*',
'accept-encoding' = 'gzip, deflate, br',
'accept-language' = 'en-US,en;q=0.9,zh-TW;q=0.8,zh;q=0.7',
'content-type' = 'application/x-www-form-urlencoded;charset=UTF-8',
'user-agent' = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36')) %>%
content %>% as.character
## 发现
https://play.google.com/store/getreviews?authuser=0' 并无此网址
dataJson
[关键字]:
Google play, Crawler, 爬虫
非常感谢各位大大!
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 1.160.202.129
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1511368335.A.95B.html
2F:→ sulaxd: 把id换成你要撷取的com.gravity.ro.and就可以 11/26 19:29
3F:→ x9060000456: 超感谢S大!!!!!!!! 11/28 14:31