[问题] 计算英文字串中双字元的出现次数

时间Mon Dec 10 13:00:22 2018

[问题类型]: 效能谘询(我想让R 跑更快) [软体熟悉度]: 入门(写过其他程式，只是对语法不熟悉) [问题叙述]: 我想要统计一个英文字串中，双字母的出现次数，例如: <input> aabaaa abbacazz input aa ab ac ad ... az ba bb bc ... ca cb cc ... zz aabaaa 3 1 0 0 0 1 0 0 0 0 0 0 abbacazz 0 1 1 0 1 1 1 0 1 0 0 1 输入资料是一个csv档，内含一个栏位<input>，每一笔(行)内容即为一个英文字串输出资料是新增aa~zz共676个栏位，每一行的英文字串後，加入双字母的出现次数，未出现的为0次下述程式码是我目前想到的，但是双回圈执行mutate(程式第4~10行)，过程速度很慢想请教对於双字元的统计是否有更好、执行效率更高的写法? [程式范例]: 以下图片为程式码与注解 https://imgur.com/utlNEB7 以下为程式码原文 file_csv<- read.csv("test.csv",header=TRUE,sep=",") n <- 1:nrow(file_csv) patt <- NULL for(i in 0:25){ for(j in 0:25){ tmp_2char <- paste(intToChar(97+i),intToChar(97+j),sep="") patt <- c(patt,tmp_2char) file_csv<-mutate(file_csv,!!tmp_2char:=0) } } m <- length(patt) for(x in n){ tmp_input <- tolower(as.character(file_csv$input[x])) file_csv[x,2:(m+1)] <- str_count(tmp_input,patt) } [环境叙述]: R version 3.5.1 (2018-07-02) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200) [关键字]: mutate str_count 双字元出现次数 -- 「那女怪，活泼泼，春意无边；这长老，死丁丁，禅机有在。一个似软玉温香，一个如死灰槁木。」《西游记．第五五回》 --

※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.126.132.70 ※ 文章网址: https://webptt.com/cn.aspx?n=bbs/R_Language/M.1544418029.A.321.html

1^F：→ andrew43: 参考看看。结构上也是双层（一个for一个sapply）。 12/10 13:39

2^F：→ andrew43: 主要是靠 gregexpr() https://ideone.com/AKO8tG 12/10 13:40

3^F：→ andrew43: 这应该不算快。10000个字串大概要16秒。 12/10 13:43

4^F：→ x88776544pc: 先切字串再计数如何 https://ideone.com/0m24lP 12/10 14:07

5^F：→ obarisk: nse的cost蛮大的 12/10 19:16

6^F：→ celestialgod: https://pastebin.com/Der1EbFy 一万个大概6秒 12/10 23:33

7^F：→ Chihuah: 感谢前面几位前辈的分享获益良多~ 又学到一些技巧了 12/13 12:26

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

R_Language 板

[问题] 计算英文字串中双字元的出现次数

热门看板

赞助商连结