作者Wush978 (拒看低质媒体)
看板R_Language
标题Re: [问题] readHTMLTable中文乱码问题
时间Mon May 27 16:36:28 2013
这是我在windows上测出来的方式:
```r
rm(list=ls(all.names=TRUE))
library(XML)
MOPS_URL.TWSE_ALL = "
http://mopsov.tse.com.tw/server-java/t05st49_1?kinds=sii&
colorchg=1&type=all&step=0a"
temp <- readLines(url(MOPS_URL.TWSE_ALL), encoding="big5")
temp <- iconv(temp, "big5", "utf8")
temp.file <- tempfile()
write(temp, temp.file)
test_doc = htmlParse(temp.file, encoding="utf8")
test <- readHTMLTable(test_doc)
test
```
※ 引述《youngce (时间会让人遗忘)》之铭言:
: : 以下是本机的资讯:
: : sessionInfo()
: : R version 2.15.3 (2013-03-01)
: : Platform: x86_64-w64-mingw32/x64 (64-bit)
: : locale:
: : [1] LC_COLLATE=Chinese (Traditional)_Taiwan.950
: : [2] LC_CTYPE=Chinese (Traditional)_Taiwan.950
: : [3] LC_MONETARY=Chinese (Traditional)_Taiwan.950
: : [4] LC_NUMERIC=C
: : [5] LC_TIME=Chinese (Traditional)_Taiwan.950
: : attached base packages:
: : [1] stats graphics grDevices utils datasets methods base
: : other attached packages:
: : [1] stringr_0.6.2 XML_3.96-1.1
: : loaded via a namespace (and not attached):
: : [1] tools_2.15.3
: : 谢谢
: 感谢Wush大的意见,但我使用iconv出现下列的错误
: 错误在as.vector(x, "character") :
: cannot coerce type 'externalptr' to vector of type 'character'
: 而我的程式码如下:
: ############################################
: rm(list=ls(all.names=TRUE))
: library(XML)
: MOPS_URL.TWSE_ALL = "http://mopsov.tse.com.tw/server-java/t05st49_1?kinds=sii&colorchg=1&type=all&step=0a"
: test_doc = htmlParse(MOPS_URL.TWSE_ALL,encoding="big5")
: #iconv(test_doc)
: test = readHTMLTable(test_doc)
: test = readHTMLTable(test_doc,which=1,stringsAsFactors=FALSE)
: View(test)
: ###############################################
: 执行到test = readHTMLTable(test_doc)就会出现
: 错误在nchar(els[[1]]) : 多位元组字串 1 不正确
: 的错误
: 烦请各位高手能在给我些意见, 谢谢
--
欢迎到ptt R_Language版分享R 的相关知识
欢迎加入 Taiwan R User Group :
http://www.facebook.com/Tw.R.User
聚会报名
http://www.meetup.com/Taiwan-R/
聚会影片
https://www.youtube.com/user/TWuseRGroup
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.112.42.22
1F:推 youngce:感谢Wush大,问题已解决!! 05/27 19:06