作者caster1985 (大头)
看板Statistics
标题[问题] R 集群分析距离方法请较
时间Tue Dec 30 21:34:09 2014
[软体程式类别]:R
[程式问题]:集群分析的距离方法设定
[软体熟悉度]:低(1个月)
[目的]:
因为资料的关系,我目前需要不同的距离方法做为集群分析的条件
例如:
样本1向量
c(1,-1,1,-1,-1)
样本2向量
c(-1,1,1,1,-1)
各维度变数只有(1,-1) 两种
我希望此两向量的距离为 4(除了中间两者第三组变数都为1不考虑外,其他组(-1,-1),
(1,-1), (-1,1)的总情形个数(共四组),想以此为距离方法来分群,请问有办法做到吗?
此外,我尝试先算出此份资料的相对距离来解决上者问题
资料与相对距离的资料
yelp<-read.csv("yelp.csv", header=F, sep=",")
yelpM<-read.csv("yelpM.csv", header=F, sep=",")
yelp.fit<-hclust(yelpM, method="ward.D")
执行到最後一行,却发生错误讯息如下:
错误在if (is.na(n) || n > 65536L) stop("size cannot be NA nor exceed 65536")
: 需要 TRUE/FALSE 值的地方有缺值
请问在距离资料这部分需要怎样的形式才能执行成功呢~感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.32.189.5
※ 文章网址: http://webptt.com/cn.aspx?n=bbs/Statistics/M.1419946451.A.E5D.html
※ 编辑: caster1985 (114.32.189.5), 12/30/2014 21:38:22
1F:→ andrew43: 逻辑怪。样本1和自己相比的距离岂就3? 12/30 23:26
2F:→ caster1985: 对喔,感谢楼上的提醒~~ 12/31 01:00
3F:→ ethan0970: 可以去看线性代数有各种距离的定义 01/04 21:43