作者slalala (ptt不是丁丁知识+)
看板Prob_Solve
标题[问题] 关於TAGS
时间Tue Dec 11 02:19:39 2007
※ [本文转录自 Programming 看板]
作者: slalala (ptt不是丁丁知识+) 看板: Programming
标题: [问题] 关於TAGS
时间: Tue Dec 11 02:18:39 2007
我写程式的能力只是幼稚园小班 顶多应付论文的小程式
我想请问一下
最近看到一些留言版程式都开始有"TAGS"的功能
会显示高词频(TF)的关键字
请问这是对全文做N- GRAM吗??
还是另有小技巧?
我很喜欢思考程式的逻辑~_~
我的想法是-
将全文用2~N的长度,
将邻近的字撷取成一个词,
然後到最後会出现很多长度2~N不等的关键字,
最後做TF的计算,最後显示前面几组关键字。
(附注: 纯n gram我已经写过了 只是想知道有没有更佳的作法 )
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.59.146.157
※ 编辑: slalala 来自: 61.59.146.157 (12/11 02:23)
1F:推 ledia:tf-idf ? 12/11 02:32
2F:→ ledia:另外你还要定义无效字吧, 不然你会看到一堆 "然後" "因为" 12/11 02:33
3F:→ slalala:所以的确是用N-GRAM? 无效词汇可以靠字典档学习而来! 12/11 23:21
4F:→ slalala:IDF可用来寻找"所谓的无效字" 12/11 23:22
5F:推 ledia:不过我猜想 tags 也有可能是 author 自己下的? 12/13 15:45
6F:→ ledia:因为 tf-idf 感觉他很不准 12/13 15:45
7F:→ slalala:要看全文的内容吧 另外单篇文章 不会有IDF 12/14 00:04
8F:推 ledia:是呀 是要用全部来看呀 @@ 12/14 11:03