R_Language 板


LINE

※ 引述《celestialgod (天)》之銘言: : ※ 引述《jojojen (JJJ)》之銘言: : : [問題類型]: : : 程式諮詢 : : [軟體熟悉度]: : : 入門(寫過其他程式,只是對語法不熟悉) : : [問題敘述]: : : 各位大大好,小弟算是爬蟲初學者,最近在練習爬取聯合新聞的即時新聞列表, : : 在抓出版時間時碰到一點問題,雖然硬是寫了出來, : : 但還是想請教一下有沒有更好的寫法 : : 麻煩各位了!! : : [程式範例]: : : # install pack : : list.of.packages <- c("rvest", "RCurl", "stringi", "XML", "stringr") : : new.packages <- list.of.packages[!(list.of.packages %in% : : installed.packages()[,"Package"])] : : if(length(new.packages)) install.packages(new.packages) : : # 撈取財經新聞 : : surl = "http://money.udn.com/money/breaknews" : : udn = read_html(surl,encoding="UTF-8") : : ranking_table = udn %>% html_nodes('.area_body') %>% html_nodes(xpath = : : "//table") : : title = ranking_table %>% html_nodes('a') %>% html_text %>% iconv(from = : : 'UTF-8', to = 'UTF-8') : : url = ranking_table %>% html_nodes('a') %>% html_attr('href') : : ## 抓取時間的時候,因為類別跟出版時間都被放在only_web class裡 : : ## 我分不開只好都先抓下來,再砍掉不符合的欄位 : : pattern = '^[0-9]{2}' : : t = ranking_table %>% html_nodes('.only_web') %>% html_text %>% as.data.frame : : colnames(t) = c("data") : : time = subset(t, grepl(pattern, t$data)) : : [環境敘述]: : : R version 3.3.1 (2016-06-21) : : Platform: x86_64-w64-mingw32/x64 (64-bit) : : Running under: Windows 7 x64 (build 7600) : : [關鍵字]: : : 網路爬蟲, RVEST : 下面是我的作法,windows用rvest會遇到encoding問題 : 但是windows中文版也不能正常顯示UTF8字元,所以要經過一點轉換 : # require pkgs and install it if it is not installed : if (!"installr" %in% installed.packages()) install.packages("installr") : library(installr) : require2(rvest) : require2(stringi) : require2(data.table) # 轉不轉data.table無所謂 : require2(pipeR) : if (is.windows()) { : original_locale <- Sys.getlocale("LC_COLLATE") : Sys.setlocale("LC_ALL", 'C') : } : surl <- "http://money.udn.com/money/breaknews" : outTbl <- read_html(surl, encoding="UTF-8") %>>% : html_node("#ranking_table") %>>% html_table : if (is.windows()) { : outTblTrans <- lapply(outTbl, function(v){ : if (class(v) == "character") { : return(stri_conv(v, to = "big5")) # 字串都轉成big5 : } else { : return(v) : } : }) %>>% `names<-`(NULL) %>>% as.data.table %>>% # names一定要先清空不然會錯 : setnames(stri_conv(names(outTbl), to = "big5")) : Sys.setlocale(locale = original_locale) : } : # 標題 類別 出版時間 瀏覽數 分享數 : # 1: 共享單車成都投放1周 亂停放被城管沒收 即時 11/25 21:21 0 NA : # 2: 緬甸洛興雅遭迫害 翁山蘇姬成眾矢之的 即時 11/25 21:21 0 NA : # 3: 馬英九:我還沒上任 就被批評會帶來大災難 即時 11/25 21:02 11 NA : # 4: 控緬甸種族淨化洛興雅人 亞洲爆示威 即時 11/25 20:54 8 NA : 上面那段也可以換成下面這個做法,不過是data.table only (但是資料量大會快一點) : if (is.windows()) { : outTblTrans <- outTbl[ , lapply(.SD, stri_conv, to = "big5")] %>>% : setnames(stri_conv(names(outTbl), to = "big5")) : Encoding(names(outTblTrans)) <- "big5" : Sys.setlocale(locale = original_locale) : } 以下是根據celestialgod大的教學完成的爬蟲,萬分感謝celestialgod大的協助!!! # require pkgs and install it if it is not installed if (!"installr" %in% installed.packages()) install.packages("installr") library(installr) require2(rvest) # to get web content require2(stringr) # to collapse a list of characters into a single string require2(pipeR) # 載入爬取新聞本文func getUdnNewsCont <- function(url) { udn = read_html(url,encoding="UTF-8") artic = udn %>% html_nodes('p') %>% html_text() %>% iconv(from = 'UTF-8', to = 'UTF-8') %>% str_c(collapse='.') return(artic) } # 撈取財經新聞 pb_news <- txtProgressBar(1, 60, style=3) # 進度條 ## get news list if (is.windows()) { original_locale <- Sys.getlocale("LC_COLLATE") Sys.setlocale("LC_ALL", 'C') } surl <- "http://money.udn.com/money/breaknews" outTbl <- read_html(surl, encoding="UTF-8") %>>% html_node("#ranking_table") %>>% html_table ranking_table = read_html(surl, encoding="UTF-8") %>>% html_node("#ranking_table") if (is.windows()) { outTblTrans <- lapply(outTbl, function(v){ if (class(v) == "character") { return(stri_conv(v, to = "big5")) # 字串都轉成big5 } else { return(v) } }) %>>% `names<-`(NULL) %>>% as.data.table %>>% # names一定要先清空不然會錯 setnames(stri_conv(names(outTbl), to = "big5")) Sys.setlocale(locale = original_locale) } ## get news content domain = "http://money.udn.com/" url = ranking_table %>% html_nodes('a') %>% html_attr('href') %>% paste0(domain, .) content <- character(60) for (i in c(1:length(url))) { content[i] <- getUdnNewsCont(url[i]) setTxtProgressBar(pb_news, i) } news <- data.frame(outTbl, url=url, content=content) news <- data.frame(lapply(news, as.character), stringsAsFactors=FALSE) ## clean table View(news) --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.98.68.200
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1480086515.A.57C.html
1F:→ lovedmagic: 在跑code的時候html_table的部分跑出亂碼 12/03 16:42
2F:→ lovedmagic: > %>>% html_table 12/03 16:44
3F:→ lovedmagic: é什麼的亂碼這邊無法複製,抱歉 12/03 16:45
4F:→ celestialgod: 請給系統 12/03 17:00
5F:推 celestialgod: windows都要跑Sys.setlocale("LC_ALL", 'C') 12/03 17:01
6F:→ celestialgod: 會建議跑我回文那篇的程式 12/03 17:02
7F:推 lovedmagic: 好的非常感謝 12/03 17:14







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:WOW站內搜尋

TOP