作者jasonfghx (工人)
看板R_Language
标题Re: [问题] 网路爬虫抓资料问题
时间Mon Jan 15 08:38:17 2018
[问题类型]:
程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
[软体熟悉度]:
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_4960.djhtm
我想抓"所属产业" 这四个字
因为我用utf-8的网页练习都没问题
但这个big5 的 执行出来都是空的
想请问是有什麽问题在里面吗
[程式范例]:
library(plyr)
library(dplyr)
library(data.table)
library(stringi)
base_url <- "
http://jsjustweb.jihsun.com.tw"
url <- "
http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_"
t_url <- paste0(url, i="4960.djhtm")
doc1 <- read_html(t_url, encoding = "big5")
xpath <- '//div[@id="SysJustIFRAMDIV"]/a'
title <- xml_text(xml_find_all(doc1, xpath))
[关键字]:
网路爬虫
很感谢回复
※ 编辑: jasonfghx (180.217.127.44), 01/15/2018 16:21:59
※ 编辑: jasonfghx (180.217.127.44), 01/15/2018 16:22:20
1F:→ andrew43: 主要的原因是左上的目录内容是javascript产生的。 01/15 18:07
2F:→ jasonfghx: 所以说遇到这种网站是捞不到资料? 01/15 18:44
3F:推 andrew43: 我不在行,但Google R fetch HTML generated by JavaSc 01/15 20:12
4F:推 andrew43: ript 有看到不少解法。 01/15 20:12
5F:→ jasonfghx: 谢谢 01/15 21:05