作者Cayley (水色天蓝)
看板R_Language
标题Re: [问题] readHTMLTable中文乱码问题
时间Mon May 27 21:54:27 2013
你好,我是 spideR 讲题的讲者
因为我不常上 ptt,所以,今天才在 Wush 的提示下
发现这里有人问了关於那场演讲的问题
基本上我也简单的在我的 Windows 主机上实验了一下
https://docs.google.com/file/d/0B3Bb-96VzIn7R1dHMEVyU1lDMlk/edit
发现,好像是可以 RUN 的耶
我的演讲的 sample code 全部都放在这个专案中
https://bitbucket.org/tw_use_r/20130325-mldm-spider
我依循了专案中的 example 1 的 code
在 Windows 的主机上执行了一遍
发现在执行下方的 example 1 的 code 时
并没有发生编码问题唷......如上图所示........
rm(list=ls(all.names=TRUE))
library(XML)
MOPS_URL.TWSE_ALL =
"
http://mopsov.tse.com.tw/server-java/t05st49_1?kinds=sii&colorchg=1&type=all&step=0a"
test_doc = htmlParse(MOPS_URL.TWSE_ALL,encoding="big5")
test = readHTMLTable(test_doc)
test = readHTMLTable(test_doc,which=1,stringsAsFactors=FALSE)
View(test)
TWSE_IDs = test$V1[-1]
print(test$V1[-1])
NBSP = " "
charToRaw(TWSE_IDs[1])
# [1] 31 31 30 31 c2 a0
TWSE_IDs = gsub("[$,\xc2\xa0]", "", TWSE_IDs)
虽然,如上图所示,我没有遇到编码问题
不过我却遇到了另一个问题
就是
test$V1 找不到东西
不过只需要把
test$V1 替换成 test[[1]]
就完全可以动了
也就是把後面的几行换成下面的样子:
TWSE_IDs = test$[[1]][-1]
print(test$[[1]][-1])
NBSP = " "
charToRaw(TWSE_IDs[1])
# [1] 31 31 30 31 c2 a0
TWSE_IDs = gsub("[$,\xc2\xa0]", "", TWSE_IDs)
就完全可以动了!!!
※ 引述《youngce (时间会让人遗忘)》之铭言:
: [问题类型]:
: R中文编码,XML套件
: [软体熟悉度]:
: 使用者(已经有用R 做过不少作品)
: [问题叙述]:
: 之前看到Taiwan R User介绍spideR的影片
: 今天试了一下Example1的范例却发现出现了中文乱码的问题,
: 网上大部分是说UTF-8语系的问题,
: 但我不知道要怎麽更改R操作语系编码设定
: 想请问各位高手要怎麽解决呢??
: 以下是本机的资讯:
: sessionInfo()
: R version 2.15.3 (2013-03-01)
: Platform: x86_64-w64-mingw32/x64 (64-bit)
: locale:
: [1] LC_COLLATE=Chinese (Traditional)_Taiwan.950
: [2] LC_CTYPE=Chinese (Traditional)_Taiwan.950
: [3] LC_MONETARY=Chinese (Traditional)_Taiwan.950
: [4] LC_NUMERIC=C
: [5] LC_TIME=Chinese (Traditional)_Taiwan.950
: attached base packages:
: [1] stats graphics grDevices utils datasets methods base
: other attached packages:
: [1] stringr_0.6.2 XML_3.96-1.1
: loaded via a namespace (and not attached):
: [1] tools_2.15.3
: 谢谢
: [程式范例]:
: 张贴能够重现错误的程式码,可以帮助版友更快的帮你解决问题
: 程式码可贴於以下网站:
: http://ideone.com/
: http://codepad.org
: http://pastie.org/
: http://nopaste.info/
: http://pastebin.com/
: http://paste.plurk.com
: http://gist.github.com/
: http://nopaste.csie.org/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 203.74.126.44
1F:→ Cayley:我在想是不是系统语言的问题...可以到 Rgui 里面 05/27 22:00
2F:→ Cayley:把预设语言改成英文,然後存一个Rconsole到我的文件底下 05/27 22:00
3F:→ Cayley:说不定语言改一下就可以过了 05/27 22:01
4F:推 Wush978:Hmm... 我不确定耶。你可以比较一下你和原Po的sessionIno 05/27 22:12
5F:→ Wush978:sessionInfo 05/27 22:30