作者iambakr (123)
看板R_Language
标题[问题] 请问可以用 0/1 数值来做 kmeans吗?
时间Mon Aug 1 22:08:07 2022
[问题类型]:
经验谘询(我想用R 连接某些资料库,请问大家的经验)
[软体熟悉度]:
新手(没写过程式,R 是我的第一次)
[问题叙述]:
请简略描述你所要做的事情,或是这个程式的目的
我有一份顾客问卷名单,除了一般常见的性别, 职业, 年龄外
其他是一系列例如:
- 你觉得我们产品哪些功能吸引你 (复选6个选项)
- 你从哪听到我们的产品 (复选7个选项)
- 你买我们的产品主要目的为何 (单选6个选项)
等等单复选题
我现在想做的是找出我们家产品购买者的分群轮廓
请问我可以将这些问卷选项转成0与数值後,去跑 kmeans吗?
例如:
- Q1第一个选项有被选填的为1,没有被选的为0
- Q3第四个选项有被选填的为1,没有被选的为0
- 性别男生为1,女生为2,其他的为0
不知道我这样表达得有没有清楚..??
谢谢各位
[环境叙述]:
R version 4.2.0 (2022-04-22 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19044)
Matrix products: default
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.utf8 LC_CTYPE=Chinese
(Traditional)_Taiwan.utf8
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.utf8
LC_NUMERIC=C
[5] LC_TIME=Chinese (Traditional)_Taiwan.utf8
[关键字]:
kmeans, 分群
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.37.144.135 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1659362889.A.C8B.html
※ 编辑: iambakr (114.37.144.135 台湾), 08/01/2022 22:08:42
1F:推 hohiyan: kmeans works with categorical data 08/02 03:55
2F:→ andrew43: 你是指要把k项复选编码成k个是非题,以及k项单选题编码 08/02 17:40
3F:→ andrew43: 成k题是非题吗? 08/02 17:41
回andrew大,我想做的是类似这样。需要做到这样 for kmeans吗?
https://bit.ly/3JqBFPc
4F:推 lycantrope: 建议用knodes h大应该是叫你去google 08/02 21:41
但 kmeans 不是只能用数值型资料吗?
K-medoids才是可以用类别型资料?
※ 编辑: iambakr (114.37.203.24 台湾), 08/04/2022 01:32:52
5F:→ andrew43: 看来我没误会。如果单纯一个复选题这样做,且所有受访者 08/04 09:53
6F:→ andrew43: 都有乖乖选你要求的项数(此指三项),我直觉这样做 08/04 09:54
7F:→ andrew43: 会是可行的。 08/04 09:54
8F:→ andrew43: 但如果是单选题,或是题型多样,可能要找找其它方法。 08/04 09:55
请问andrew大,为何单选的话就不推荐这种用法了!?
其实我的题目其实单选跟复选都有.....
9F:推 hohiyan: kmeans可以处理 binary data,但能避免就避免比较好 08/05 07:50
请问h大还有哪种分群方式适合我这样的资料方式呢?
例如: 阶层式
※ 编辑: iambakr (114.37.220.76 台湾), 08/08/2022 01:08:57
10F:→ andrew43: 终究还是因为kmeans不好处理类别资料的距离与中心。 08/08 02:26