作者wheado (自閉哥)
看板R_Language
標題[問題] 新手爬蟲post cookie問題
時間Mon Mar 21 15:10:10 2016
問題是這樣子,前陣子套件httr似乎有經過一些改變,
似乎採用了比較新的套件xml2裡面的函數,
因此,再爬取PTT八卦版文章出現了錯誤,
無法再使用httr的指令set_cookie("over18"="1")
搭配xpathSApply來抓取八卦板index跟裡面的文章內容。
所以想從RCurl套件中做一個Post的動作,
從網路上看高手用Python可以很輕鬆的就解決,
可是自己GOOGLE卻找不到用R解決的辦法QQ
不懂cookie這種東西是如何運作?
要如何用R讓他運作?
一些關鍵字: RCurl cookiefile cookiejar postForm
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 134.208.23.155
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1458544213.A.B30.html
1F:→ celestialgod: 我用GET + set_cookie一樣可以抓阿@@ 03/21 15:30
2F:→ celestialgod: x是GET下來的物件,要文字就用content(x, "text") 03/21 15:39
3F:→ celestialgod: 配xml2的話就用下面的指令 03/21 15:39
4F:→ celestialgod: xml_find_all(content(x), 03/21 15:40
5F:→ celestialgod: "//div[@id='main-content']") 03/21 15:40
6F:→ celestialgod: 再%>% xml_text就可以抓整篇文章下來了 03/21 15:42
7F:→ celestialgod: windows再搭配stri_conv轉成big5 03/21 15:42
9F:→ celestialgod: 如果是要用XML就把content(x, "text")丟到htmlParse 03/21 15:45
10F:→ wheado: 太神啦 我等等來試試看!! 謝謝大大 03/21 16:11
11F:→ wheado: 我弄這個弄到好幾天都睡不好 QQ 03/21 16:11