R_Language 板


LINE

※ 引述《SFMAndroid (安卓發送)》之銘言: : [問題類型]: : : 效能諮詢(我想讓R 跑更快) : : [軟體熟悉度]: : 請把以下不需要的部份刪除 : 入門(寫過其他程式,只是對語法不熟悉) : : [問題敘述]: : 請簡略描述你所要做的事情,或是這個程式的目的 : 爬PTT文章,原本是用sapply加上自定義函數, : 但實在跑太久,想說用snow::parSapply會不會比較快, : 但一直遇到問題@@ : 除了找不到所有httr裡的函數外 : 即使用clusterEvalQ把所有未定義的函數都定義後, : 就出現is.url(url) is not true的無限輪迴... : 但改回用sapply除了跑很久外完全正常, : 請問有沒有大大知道該怎麼辦?? : 感謝~ : [程式範例]: : : https://gist.github.com/anonymous/a45f6d04254adb27e64a : : [環境敘述]: : : R version 3.2.1 (2015-06-18) : Platform: i386-w64-mingw32/i386 (32-bit) : Running under: Windows 8 x64 (build 9200) : locale: : [1] LC_COLLATE=Chinese (Traditional)_Taiwan.950 : [2] LC_CTYPE=Chinese (Traditional)_Taiwan.950 : [3] LC_MONETARY=Chinese (Traditional)_Taiwan.950 : [4] LC_NUMERIC=C : [5] LC_TIME=Chinese (Traditional)_Taiwan.950 : attached base packages: : [1] parallel stats graphics grDevices utils datasets methods base : : [關鍵字]: : : snow, parallel computing : 不要去寫入硬碟在讀取,我不確定在平行時候開啟硬碟讀取會不會出事... 但是我覺得你可以不用去寫入硬碟,再重新讀入虛耗時間... 好讀版:http://pastebin.com/TKN2jWHr 然後我也不推薦用XML,我比較建議使用xml2 參考#1MbXOkFc (R_Language) library(xml2) library(RCurl) library(magrittr) library(stringi) i <- 2793 data <- NULL repeat{ url.list <- try(paste(i, '.html', sep='') %>% paste('https://webptt.com/m.aspx?n=bbs/Boy-Girl/index', ., sep='') %>% xml2::read_html() %>% xml2::xml_find_all("//div[@class='title']/a[@href]") %>% xml2::xml_attr("href"), silent = TRUE) if (any(grepl("Error", url.list))) break data %<>% c(url.list) i <- i + 1 } data %<>% paste('https://webptt.com/m.aspx?n=', ., sep='') getDoc <- function(line){ xml2::read_html(line, "UTF-8") %>% xml2::xml_find_one("//div[@id='main-content']") %>% xml_text %>% stri_conv("UTF-8", "Big5") # stri_conv for windows } st <- proc.time() articles <- sapply(data, getDoc) proc.time() - st # user system elapsed # 3.35 3.70 7.21 -- R資料整理套件系列文: magrittr #1LhSWhpH (R_Language) http://tinyurl.com/1LhSWhpH data.table #1LhW7Tvj (R_Language) http://tinyurl.com/1LhW7Tvj dplyr(上) #1LhpJCfB (R_Language) http://tinyurl.com/1LhpJCfB dplyr(下) #1Lhw8b-s (R_Language) tidyr #1Liqls1R (R_Language) http://tinyurl.com/1Liqls1R --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.218.152.118
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1458232801.A.127.html
1F:推 naturalsmen: 喔喔感謝板大 code變得超簡潔 也快很多 本來是因為 03/18 20:43
2F:→ naturalsmen: 不熟xml2 想說偷懶用以前寫的就好XD 03/18 20:43
稍微研究一下xml2吧,我也不知道你要的是什麼@@ 你的程式,html那個變數我跑不出來(攤手 ※ 編輯: celestialgod (140.109.73.237), 03/18/2016 21:11:21







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:BuyTogether站內搜尋

TOP