作者micropath (micropath)
看板NCTU-STAT99G
標題[情報] 統計計算語言 作業一
時間Fri Jul 9 11:28:51 2010
恭喜開版成功, 為慶祝順利開版, 第一次作業的繳交時間延長3天.
改為7月18日中午12:00以前繳交完成.
Homework#1:
Due: July 18, 2010 (Thursday) 12:00以前 (逾時三日內可補交,但會扣分;逾時超過
三日將不再接受繳交)
Note: 於截止時間前將寫好之程式(H1P1代表第一次作業第一題,依述類推) 以及程式使
用說明的文字檔,以電子檔傳至闕棟鴻信箱
[email protected], E-mail標題為
統計計算語言作業一(u9126802闕棟鴻),也要求讀取回條,以確定老師有收到信件。
1). 試利用R語言,撰寫一個程式,在給予一個資料庫檔案以及一個目標檔案後,
可以將在資料庫檔案中有在目標檔案出現過的變數篩選出來,並將該列的數據輸出,
對於在資料庫檔案中有重覆出現的變數,請再使用一個參數p,讓p=All,
代表將有在資料庫檔案中重覆的變數直接顯現,p=Mean,代表以平均數來代表重覆的
變數,p=Median,代表以中位數來代表重覆的變數,並計算該程式執行所需之時間。
請參考下列例子。(40%)
[Hint: Possible used function: is.element, data.matrix, read.table]
(資料庫檔案)
Exp1 Exp2
Gene1 1 3
Gene3 3 6
Gene5 8 8
Gene3 4 2
Gene8 2 1
Gene3 2 1
Gene4 7 5
(目標檔案)
Gene1
Gene3
Gene4
P=All則輸出
Exp1 Exp2
Gene1 1 3
Gene3 3 6
Gene3 4 2
Gene3 2 1
Gene4 7 5
P=Mean則輸出
Exp1 Exp2
Gene1 1 3
Gene3 3 3
Gene4 7 5
P=Median則輸出
Exp1 Exp2
Gene1 1 3
Gene3 3 2
Gene4 7 5
2) 在Machine Learning中,我們常會遇到的資料型態是一群Attributes(在統計常稱
為independent variables),以及一個有興趣分類的class level(在統計中常稱為
dependent variable),如在iris的資料中,Species即為class level而Sepal.Length,
Sepal.Width, Petal.Length及Petal.Width即為attributes。試撰寫一程式,在給予此
類型的資料時(最後一行變數為class level,其它行的變數皆為attributes),我們可
以畫出一個2×2的圖表,其每個細圖包含了Scatter plot(different color
with different class levels), Boxplot, plot density,
histogram(display the number experiments for different class levels)。
同時讓不同的class levels在圖型中用不同的顏色表示。(20%)
[Hint: Possible used function: Par(mfrow=c(m,n)), plot, boxplot, density, hist]
3) 給予一個上述的資料格式,試撰寫一個程式,同時利用RWeka裡的classification
方法,包含J48 classifiers (J48), naive Bayesian classifiers (NB),
k-nearest neighbors classifiers (IBk), classifiers, Support vector
clssifiers (SMO), Logistic regression classifiers (Logistic)等分類法去進行
分類,並輸出包含Accuracy, Precision, Recall and F-measure等資料。同時整理
成一個表格。分別以Training data set 以及Leave one out cross validation
的方法去分析。(40%)
[Hint: Possible used function: factor, J48, NB, IBk, SMO, Logistic,
Weka_control] (Package: RWeka)
Useful link:
http://cran.r-project.org/web/packages/RWeka/RWeka.pdf
http://www-users.cs.umn.edu/~kumar/dmbook/index.php#item4
(注意:作業請務必繳交,否則將以0分計算,如無法順利完成,可先針對固定資料進行
分析。例如在題目一中的資料庫檔案(excel中5000筆資料)或是上述例子(7筆資料)
分析,以及在題目二及題目三可以只針對iris的資料進行分析。)
ps.對了,最後祝大家暑假修課愉快喔~~~
--
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.114.208
※ 編輯: micropath 來自: 140.113.114.208 (07/09 11:36)
1F:推 ww770829:這是老師嗎QQ 07/09 21:09