java 板


LINE

※ 引述《ken915007 (Ken_Wu)》之銘言: : 目前正在使用java實作data mining的方法... : 實作中,在想一個問題,就是字串比對 : 怎樣的字串比對才有效率? : 推 qrtt1:看能不能在資料前處理時統一成數字, 要結果再轉成字串 12/05 08:20 : → ken915007:若item要是多的話…這樣轉數字~最後在反轉~也是要時間 12/05 12:12 : → ken915007:酷!! 難道不能這樣用?還是比較不好?? 12/05 12:14 : → qrtt1:處理簡單的型別絕對比物件來的有效率 12/05 13:41 : → qrtt1:關聯用 fp-tree 比較有效率的說 :P 12/05 13:43 : 嗯! 我有看過這些方法~但精準度apriori會比較高點...所以才想用apriori, : 但缺點就是要重覆掃資料... : 有點離題了^^ 重點不是這演算法= = : 我想知道對於字串的比對~像上面的範例~大家會用什麼方法去比對是否有出現過 如果 input data 沒有可 exploit 的性質 且 algorithm 一定得寫成原文中所述的話 那我目前只能想到 「確認所有的 String 比對使用 hashCode 以 fail-fast」 這就要去讀 JDK source code 去看 containsAll() 及 String.Equals 的實作 還有 String.hashCode 有無把 hashCode cache 起來 如果沒有的話,可以把 String 包成另一個 class 再實作 hashCode cache class StringAndCachedHashCode { Int32? hashCode = null; String string; internal StringAndCachedHashCode(String string) { this.string = string. } internal Int32 hashCode() { if (hashCode.HasValue) return hashCode.Value; else { hashCode = string.hashCode(); return hashCode.Value; } } } 再要更上層樓的話,就得確認 containsAll() 有實作 fail-fast 且還可以對 input data 做 statistical analysis 看能不能讓 containsAll() fail-fast-er :p (例: always 從最稀有的 element 開始 check 'containsAll()') 另外一件很重要的事,這裡碎碎念一下 performance tuning 與任何其他的 scientific method 沒有不一樣的地方 perf tuning 的新手最常犯的一個錯誤就是瘋狂的把所有能想到的手段都試作 卻沒有嚴謹地檢視 ROI (return of investment) 我會建議原 po 這樣做: 1. Identify a set of well-understood test data. 2. Set your perf. tuning goal 3. Identify a method to measure against your perf. goal. 4. Watch your code under a profiler and identify the type of improvment that can bring you the biggest ROI 5. Implement the improvement 6. Test your new implementation with the test data from step#1. 7. Measure perf. improvement with the method from step#3. 8. Only if you have not met your perf. tuning goal, go back to step#4. Otherwise, call it a day. 當然,如果沒有 deadline 或有無限的時間…以上方法自然不適用… XD --



※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 65.87.177.87 ※ 編輯: AmosYang 來自: 65.87.177.87 (12/05 17:33)
1F:→ AmosYang:呃 那段code迷迷糊糊的寫成C#了 懶得改了 看得懂就好 :) 12/05 17:39
2F:→ ken915007:呵呵~感謝^^ 剛剛在看code想說怎麼看起來怪怪的= = 12/05 17:44
3F:→ ken915007:我在想你的ROI是對哪部份?還有deadline是指哪部份? 12/05 17:59
4F:推 ken915007:我才疏學淺…會比較不快理解~請多包含^^ 12/05 18:02
5F:→ ken915007: 涵 12/05 18:04
ROI := return of investment 中文可以翻作 投資報酬 ? deadline -- 作業/報告/老闆耐心 的期限 易言之,最後這一段我想講的是「perf. tuning 的 engineer practice」 有的時候一些 tweak 在理論上會有幫助 但實質上效益卻不大,且要花很多時間去實作 這就是所謂的 low ROI 這就只能靠良好的 engineer practice / scientific method 去驗證 通常 80/20 rule 很少出錯;在學校裡教導的是 software engineering 但在現實生活中能養活人的是 software business perfect solution 的 ROI 多半不如 something just good enough 有些道理我也無法三言兩言說得很清楚 :) 反正如果沒有 deadline 的話一切好談 XD ※ 編輯: AmosYang 來自: 65.87.177.87 (12/05 18:24) ※ 編輯: AmosYang 來自: 65.87.177.87 (12/05 18:25)
6F:推 ken915007:ROI我知道是什麼…只是不明你所講的是哪部分而已^^~感謝 12/05 19:01







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:e-shopping站內搜尋

TOP