R_Language 板


LINE

看一下 是不是你想要的 long = grep("\\s", names(v)) short = setdiff(1:length(v), long) for (i in long) { words = strsplit(names(v[i]), "\\s")[[1]] for (j in 1:length(words)) v[short][names(v[short]) == words[j]] = v[short][names(v[short]) == words[j]] - v[i] } 第二個迴圈可以用match做,並且省略short這個變數,這個你可以自己嘗試 code可以這樣改 long = grep("\\s", names(v)) for (i in long) { words = strsplit(names(v[i]), "\\s")[[1]] loc = na.omit(match(words, names(v))) v[loc] = v[loc] - v[i] } 不用迴圈的作法: twoWords = do.call(rbind, strsplit(names(v[long]), "\\s")) s = tapply(rep(v[long],2), twoWords, sum) loc = match(names(s), names(v)) v[loc] = v[loc] - s 你可以自己查看 s 跟 v[loc] 總數是有出入的 所以麻煩你確認一下你的雙詞跟單詞次數是否有誤 我後來想到你這個問題是 你雙詞會擷取前後,所以會有兩倍的單詞在雙詞中計入 你可能要自己去考慮這問題的解決方式 ※ 引述《john5601 (HTC ONE年不變)》之銘言: : 目前在作英文的文字探勘,已經可以分別算出單詞和雙詞的結果 : 舉例 : : "Information management" 在文章中出現3次 : "Information"在文章中出現5次 : "management"在文章中出現6次 : 但因為想要長詞優先,所以"management"和"Information"的次數要分別減3次 : http://imgur.com/jAjrZxK : 以上為跑出的結果 不知道該如何達成這樣的作法 : 懇請前輩大大指導 : [程式範例]: : http://pastebin.com/27rXYuQp 程式碼 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.205.27.107
※ 文章網址: https://webptt.com/m.aspx?n=bbs/R_Language/M.1437620009.A.1B1.html
1F:推 john5601: http://imgur.com/kCiaJzC 把c大的執行後結果07/23 15:55
2F:→ john5601: 還是不太懂第二個迴圈該怎麼做07/23 15:57
等一下再重新確認一下程式 我測試的結果是你的count可能有問題 舉例來說: church顯示的出現次數是13次 可是church的雙詞總共有26次 > v[grep("church", names(v))][-1] church said associ church believ church 2 1 1 church abl church add church continu 1 1 1 church explain church leader church leadership 1 1 1 church misconduct church practic church produc 1 1 1 church scientolog church secret control church 1 1 1 eject church expos church fals church 1 1 1 former church innerwork church insid church 1 1 1 member church nevertheless church news church 1 1 1 respons church 1 > sum(v[grep("church", names(v))][-1]) [1] 26 你可能要確認你的單詞數目是否正確 ※ 編輯: celestialgod (123.205.27.107), 07/23/2015 16:53:30 ※ 編輯: celestialgod (123.205.27.107), 07/23/2015 17:53:25
3F:推 john5601: 沒錯 我應該要單詞跟雙詞分開後,先取雙詞的前幾趴的詞 07/23 19:06
4F:→ john5601: 之後再跟單詞的結果作計算 07/23 19:07







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Tech_Job站內搜尋

TOP