作者celestialgod (天)
看板R_Language
标题Re: [问题] R中文编码(MS950)问题
时间Wed Dec 30 14:25:26 2015
※ 引述《AmuroRai (SIEG ZEON!!!!!!)》之铭言:
: [问题类型]:
: 程式谘询(我想用R 做某件事情,但是我不知道要怎麽用R 写出来)
: [软体熟悉度]:
: 入门(写过其他程式,只是对语法不熟悉)
: [问题叙述]:
: 最近开始在学用R写爬虫,而今天下午试着要爬证交所的股票代码列表时发现他们似乎
: 是使用MS950编码,但是这个编码R却无法认得。(参见程式码部分)
: 後来还有试过用utf-8和big5硬推,也试着用tmcn去转码,但是中文部分还是只得到乱码。
: 因此想请问是否有什麽方法可以绕过这个问题?
: (把原网页资料抓下来存成csv转码後再丢给R不在考虑之列)
: [程式范例]:
: 只附上一开始用MS950的程式码,big5和utf-8的结果大同小异。
: 另外最後res和ress的output不知道为什麽无法完整贴上,但总之遇到中文都是乱码就是了
library(RCurl)
library(stringi)
urlToGet = "
http://isin.twse.com.tw/isin/C_public.jsp?strMode=2"
htmlFile = getURLContent(urlToGet)
htmlFileEncodingUTF8 = stri_encode(html_file,
attr(html_file, "Content-Type")[2], "utf8")
Encoding(htmlFileEncodingUTF8)
# [1] "UTF-8"
--
R资料整理套件系列文:
magrittr #1LhSWhpH (R_Language) http://tinyurl.com/1LhSWhpH
data.table #1LhW7Tvj (R_Language) http://tinyurl.com/1LhW7Tvj
dplyr(上) #1LhpJCfB (R_Language) http://tinyurl.com/1LhpJCfB
dplyr(下) #1Lhw8b-s (R_Language)
tidyr #1Liqls1R (R_Language) http://tinyurl.com/1Liqls1R
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.109.74.87
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1451456729.A.D7F.html
1F:推 AmuroRai: 谢谢c大,晚点再来用curl试试 12/30 15:51
不过那张表格的写法有问题,xml是无法parse的
例如: align=center xmlParse不会过
都会出现 AttValue: " or ' expected
※ 编辑: celestialgod (140.109.74.87), 12/30/2015 16:00:05