作者sorder (Reader)
看板R_Language
标题[问题]用getURL抓台股代码 encoding问题
时间Sun Apr 26 23:05:19 2015
[问题类型]:
抓资料编码问题.
[软体熟悉度]:
请把以下不需要的部份删除
入门(写过其他程式,只是对语法不熟悉)
[问题叙述]:
请简略描述你所要做的事情,或是这个程式的目的
利用R来抓台股股票代码
但是抓回来的资料是乱的.
两个网址都是乱的.Orz~
[程式范例]:
//==================================
rm(list=ls(all.names=TRUE))
library(RCurl)
library(XML)
library(bitops)
test =
getURL("http://isin.twse.com.tw/isin/C_public.jsp?strMode=2",encoding="UTF-8")
test2 = getURL("http://www.emega.com.tw/js/StockTable.htm",encoding="big5")
write.table(test,"test.txt")
write.table(test2,"test2.txt")
//==================================
[环境叙述]:
Win7 + RStudio
[关键字]:
选择性,也许未来有用
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.126.95.55
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1430060722.A.57C.html
1F:→ celestialgod: 爬之前的文章吧,ENCODING在windows很麻烦 04/27 12:47
2F:→ celestialgod: 请爱惜生命跟时间,尽早服用UTF8的LINUX 04/27 12:47
3F:→ celestialgod: 那个选项是用.encoding 第一个网址.encoding='big5' 04/27 12:51
4F:→ celestialgod: 会是正确的档案 04/27 12:51
5F:→ celestialgod: 第二个档案一样少个.,结果就会对 04/27 12:52
6F:→ sorder: 感谢 爬到了 04/27 13:26
8F:→ sorder: url=getURL(url,.encoding="big5") 即可正确了~~ 04/27 13:28
9F:→ sorder: 原来是少了个"." Orz 04/27 13:29
10F:推 psinqoo: 请爱惜生命跟时间,尽早服用UTF8的LINUX+1 04/28 17:00
11F:→ gsuper: parser 还是自己写好些, strsplit() 万用 04/30 00:41