作者celestialgod (攸蓝)
看板R_Language
标题Re: [问题]htmlParse
时间Mon May 4 12:53:10 2015
: [问题类型]:
: 程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
:
: [问题叙述]:
: 1.请问htmlParse返回的结果是否有size限制?
: 我用下面一段code htmlParse返回只有到[[288]],似乎没有抓完?
: 如果是size的限制有办法解决吗?
这我不知道,但是我用RCurl有抓到全部,直接htmlParse就失败了:
test_doc = getURL(URL,.encoding="big5")
test = htmlParse(test_doc, encoding="big5")
test["//tr"] %>% str() # List of 11655
test_doc = htmlParse(URL,encoding="big5")
test = test_doc["//tr"] %>% str() # List of 288
: 2.我试着用readLines读同样的网址,但因没有换行符号,所有的资料只存成一行,
: 处里这一类没有换行符号的网址,有什麽好方法呢?
readLines之後用gsub把你要断行的地方放进去
EX:
我要把每一个开始或结束的tag後面都放置一个断行,
这个要用一些regular expression的知识
gsub("(</?[^>]*>)", "\\1\\\n", "<tr><td bgcolor=\"#FAFAD2\" colspan=\"7\"><b>
股票 <b> </b></b></td></tr>") %>% sprintf("%s", .) %>% cat()
output:
<tr>
<td bgcolor="#FAFAD2" colspan="7">
<b>
股票 <b>
</b>
</b>
</td>
</tr>
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 123.205.27.107
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1430715193.A.1AD.html
※ 编辑: celestialgod (123.205.27.107), 05/04/2015 13:10:06
1F:推 sorder: 我用getURL抓出来是完整的,带入htmlParse出来还是只有 05/05 01:42
2F:→ sorder: 部分,这个结果和你看起来不一样~奇怪~@@" 05/05 01:43
3F:→ sorder: 谢谢你的回答,我再研究一下regular expression.^^ 05/05 01:45
4F:→ celestialgod: 可能跟R版本有关,他应该是有修正 05/05 08:18
5F:→ celestialgod: 我用最新版的3.2.0 05/05 08:19
6F:推 sorder: 我也是跟你一样的版本~^^ 05/05 23:55
7F:→ celestialgod: 那我真的不知道问题了... 05/06 00:02
8F:推 sorder: 没关系,谢谢你的回答。 05/06 12:28