作者slalala (ptt不是丁丁知識+)
看板Prob_Solve
標題[問題] 關於TAGS
時間Tue Dec 11 02:19:39 2007
※ [本文轉錄自 Programming 看板]
作者: slalala (ptt不是丁丁知識+) 看板: Programming
標題: [問題] 關於TAGS
時間: Tue Dec 11 02:18:39 2007
我寫程式的能力只是幼稚園小班 頂多應付論文的小程式
我想請問一下
最近看到一些留言版程式都開始有"TAGS"的功能
會顯示高詞頻(TF)的關鍵字
請問這是對全文做N- GRAM嗎??
還是另有小技巧?
我很喜歡思考程式的邏輯~_~
我的想法是-
將全文用2~N的長度,
將鄰近的字擷取成一個詞,
然後到最後會出現很多長度2~N不等的關鍵字,
最後做TF的計算,最後顯示前面幾組關鍵字。
(附註: 純n gram我已經寫過了 只是想知道有沒有更佳的作法 )
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.59.146.157
※ 編輯: slalala 來自: 61.59.146.157 (12/11 02:23)
1F:推 ledia:tf-idf ? 12/11 02:32
2F:→ ledia:另外你還要定義無效字吧, 不然你會看到一堆 "然後" "因為" 12/11 02:33
3F:→ slalala:所以的確是用N-GRAM? 無效詞彙可以靠字典檔學習而來! 12/11 23:21
4F:→ slalala:IDF可用來尋找"所謂的無效字" 12/11 23:22
5F:推 ledia:不過我猜想 tags 也有可能是 author 自己下的? 12/13 15:45
6F:→ ledia:因為 tf-idf 感覺他很不準 12/13 15:45
7F:→ slalala:要看全文的內容吧 另外單篇文章 不會有IDF 12/14 00:04
8F:推 ledia:是呀 是要用全部來看呀 @@ 12/14 11:03