作者lin10th (John)
看板R_Language
标题[问题] 找出栏位内,重覆次数最多的资料
时间Mon Dec 16 10:53:33 2019
[软体程式类别]:
R
[程式问题]:
资料处理,找出重复次数最多
[软体熟悉度]:
学习约两个月
[问题叙述]:
读取健保资料库,共有40个栏位。其中第14个栏位看诊科别与第20个疾病种类,我想要
查询数量最多的前10名(总共有11万笔看诊资料)
资料库读出来的程式命名data1
除了直接用data1[,14]与data2[,20]取出两个需求的栏位外
也有试着用data3[,c("FUNC_TYPE","ICD9CM_1")] #第14栏位名为FUNC_TYPE, 第20栏位名
ICD9CM_1。这个方式直接取出两组需要计算的栏位。
有找到书籍跟网路上的资讯,是不是要用dplyr套件内的group_by跟summarise两个函数
比较容易找出来看科别与疾病的钱前10名?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 49.214.236.195 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1576464815.A.EE2.html
1F:→ Edster: table 这支函数就可以了。 12/16 12:20
2F:推 locka: 两个栏位是各自独立计算吗?如果是的话用table就可以,如果 12/16 13:16
3F:→ locka: 需要计算两个栏位出现最多的组合前10名,可用data %>% grou 12/16 13:16
4F:→ locka: p_by(c1,c2) %>% tally() 12/16 13:16
5F:推 taya1991: summary(as.factor(你的资料)),sort後列出前10名,但你 01/14 02:45
6F:→ taya1991: 有确定你资料乾净吗? 01/14 02:45