作者celestialgod (攸蓝)
看板R_Language
标题[分享] R资料比赛
时间Sun Jul 13 01:06:00 2014
运气很好,在硕班最後一年还有机会参加到R的资料比赛
感谢主办单位 中华R软体研发暨应用协会 以及 中国医药大学
比赛网址如下:
http://www.carra.org.tw/dm/
比赛方式很简单,跟我们统计谘询课很类似
给我们一笔资料,我们自己找到想要研究的对象进行分析
我个人猜测资料是出自政府所推出的 不动产实价登录系统
但是我们没有实际去下载资料,不过网路上已经有人取得并公布我们手上的资料
我们今天查的结果是直到今日可供下载的资料笔数为76万笔
我们手上拿到的资料为68万笔,着实为不小的数目了
(更新:查询之後,确实为政府实价登录的公开资料 连结如下:
http://plvr.land.moi.gov.tw/DownloadOpenData )
简单介绍一下资料,资料为22个县市不动产价格买卖纪录,
不动产项目主要为五种,土地、建物、房地(土地+建物)、车位以及
房地(土地+建物)+车位,
每一笔资料基本上都有纪录这笔资料共交易了几笔土地、几笔建物以及几笔车位,
还有总售价、移转总面积、土地总面积等28个变数(显示栏位个数)。
简单给大家看一下北市的资料:
http://ppt.cc/PrKY
可以看到其实各个栏位还有missing、人为错误或是不同房地产有不同的变数等情形
我认为很幸运的是这笔资料只有28个变数,我们选一个目标变数後
从27个变数中选择可解释的变数即可。
但是如前所述,这笔资料存在很多问题,
非常考验每一个参赛队伍对於资料的前处理功夫。
我们这组自信没办法对全部的不动产做Modeling,
我们果断只选择有含盖建物的不动产资料做分析,
并且经过前处理资料得到下面18个变数,
变数名称 说明
单价(元/平方公尺) 原附载资料 (为我们的目标变数)
县市 每个县市做一个indicator
土地移转总面积(平方公尺) 原附载资料
使用分区或编定 原附载资料
交易年月 转换为以民国1年1月为基准的计月资料
总层数 原附载资料
建物型态 原附载资料
主要建材 转为是否为钢筋混凝土造
建物移转总面积(平方公尺) 原附载资料
建物现况格局-房 原附载资料
建物现况格局-厅 原附载资料
建物现况格局-卫 原附载资料
建物现况格局-格局 原附载资料
有无管理组织 原附载资料
车位移转总面积(平方公尺) 原附载资料
土地数目 切割「交易笔栋数」的栏位
建物数目 切割「交易笔栋数」的栏位
车位数目 切割「交易笔栋数」的栏位
经过处理之後,我们不考虑有遗失值的资料(共删除六千笔左右含有遗失值的资料)
剩下资料为47万笔左右,我们对这47万笔资料做log-linear model
估计方法有两种,一为OLS,另一为group lasso,
而我们两个模型最後的prediction error都介於0.19到0.22之间,
而且OLS的判定系数为61%左右,我个人以为我们这组做得还算不错。
只可惜时间真的很短很短,从上午九点开始到下午四点,
我们浏览资料、讨论、资料前处理以及决定目标变数之後,
就已经下午两点半了,我们只利用一个小时做建模,真的非常赶....
我们R code利用K & R style,资料前处理大概花了两页半,
资料浏览(绘图)花了一页,最後建模用了一页半。
最後,我想说的是big data远不止如此,未来挑战一定更多(叹气...
大家加油!!!! XD
结果讨论:
我们还删掉了近三分之一的资料,然後直接忽视遗失值,
直接考虑只有建物价格的模型,我个人觉得非常大胆,
如果有时间,其实可以再针对土地、车位做另一个模型做评估。
还请各位先进指教。
最後谢谢辅大提供如此优良的比赛场所,
还有我优秀的队友们!!!!
希望可以去拿奖金回来XDD
[关键字]: R资料比赛
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 218.164.188.9
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/R_Language/M.1405184762.A.1C5.html
※ 编辑: celestialgod (218.164.188.9), 07/13/2014 01:28:26
※ 编辑: celestialgod (218.164.188.9), 07/13/2014 02:17:11
1F:推 Wush978:谢谢分享 07/13 08:55
2F:推 berthandsome:感觉比赛关键会是在遗失值的处理,谢谢分享给推 07/22 00:42