作者micropath (micropath)
看板NCTU-STAT99G
标题[情报] 统计计算语言 作业一
时间Fri Jul 9 11:28:51 2010
恭喜开版成功, 为庆祝顺利开版, 第一次作业的缴交时间延长3天.
改为7月18日中午12:00以前缴交完成.
Homework#1:
Due: July 18, 2010 (Thursday) 12:00以前 (逾时三日内可补交,但会扣分;逾时超过
三日将不再接受缴交)
Note: 於截止时间前将写好之程式(H1P1代表第一次作业第一题,依述类推) 以及程式使
用说明的文字档,以电子档传至阙栋鸿信箱
[email protected], E-mail标题为
统计计算语言作业一(u9126802阙栋鸿),也要求读取回条,以确定老师有收到信件。
1). 试利用R语言,撰写一个程式,在给予一个资料库档案以及一个目标档案後,
可以将在资料库档案中有在目标档案出现过的变数筛选出来,并将该列的数据输出,
对於在资料库档案中有重覆出现的变数,请再使用一个参数p,让p=All,
代表将有在资料库档案中重覆的变数直接显现,p=Mean,代表以平均数来代表重覆的
变数,p=Median,代表以中位数来代表重覆的变数,并计算该程式执行所需之时间。
请参考下列例子。(40%)
[Hint: Possible used function: is.element, data.matrix, read.table]
(资料库档案)
Exp1 Exp2
Gene1 1 3
Gene3 3 6
Gene5 8 8
Gene3 4 2
Gene8 2 1
Gene3 2 1
Gene4 7 5
(目标档案)
Gene1
Gene3
Gene4
P=All则输出
Exp1 Exp2
Gene1 1 3
Gene3 3 6
Gene3 4 2
Gene3 2 1
Gene4 7 5
P=Mean则输出
Exp1 Exp2
Gene1 1 3
Gene3 3 3
Gene4 7 5
P=Median则输出
Exp1 Exp2
Gene1 1 3
Gene3 3 2
Gene4 7 5
2) 在Machine Learning中,我们常会遇到的资料型态是一群Attributes(在统计常称
为independent variables),以及一个有兴趣分类的class level(在统计中常称为
dependent variable),如在iris的资料中,Species即为class level而Sepal.Length,
Sepal.Width, Petal.Length及Petal.Width即为attributes。试撰写一程式,在给予此
类型的资料时(最後一行变数为class level,其它行的变数皆为attributes),我们可
以画出一个2×2的图表,其每个细图包含了Scatter plot(different color
with different class levels), Boxplot, plot density,
histogram(display the number experiments for different class levels)。
同时让不同的class levels在图型中用不同的颜色表示。(20%)
[Hint: Possible used function: Par(mfrow=c(m,n)), plot, boxplot, density, hist]
3) 给予一个上述的资料格式,试撰写一个程式,同时利用RWeka里的classification
方法,包含J48 classifiers (J48), naive Bayesian classifiers (NB),
k-nearest neighbors classifiers (IBk), classifiers, Support vector
clssifiers (SMO), Logistic regression classifiers (Logistic)等分类法去进行
分类,并输出包含Accuracy, Precision, Recall and F-measure等资料。同时整理
成一个表格。分别以Training data set 以及Leave one out cross validation
的方法去分析。(40%)
[Hint: Possible used function: factor, J48, NB, IBk, SMO, Logistic,
Weka_control] (Package: RWeka)
Useful link:
http://cran.r-project.org/web/packages/RWeka/RWeka.pdf
http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item4
(注意:作业请务必缴交,否则将以0分计算,如无法顺利完成,可先针对固定资料进行
分析。例如在题目一中的资料库档案(excel中5000笔资料)或是上述例子(7笔资料)
分析,以及在题目二及题目三可以只针对iris的资料进行分析。)
ps.对了,最後祝大家暑假修课愉快喔~~~
--
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.114.208
※ 编辑: micropath 来自: 140.113.114.208 (07/09 11:36)
1F:推 ww770829:这是老师吗QQ 07/09 21:09