作者sandwichC (没回应=挂站)
看板CSSE
标题Re: [请益] 有没有一样是研究text mining的同好呢
时间Fri Feb 20 00:26:03 2009
20newsgroup的资料算是相当容易判别的资料了
用十年前的 Naive Bayesian Text Classifiation
(
http://www.cs.cmu.edu/~knigam/papers/multinomial-aaaiws98.pdf )
当training 和 testing data set 各占50%时,就可以达到平均85%以上的正确率
就算是你说的比较难分的 religious.misc 也有 60% 以上的正确率
如果你再用一些 feature selection 的技巧,平均正确率达到95%以上没问题
Dr. McCallum 的 Bow (
http://www.cs.cmu.edu/~mccallum/bow/ )
可以完全做到你要做的事
该网页也是用20newsgroup做例子
连feature selection都帮你准备妥当了
: 其实是这样的 text mining 可以粗略简化为三个流程
: 1.特值撷取: 因为电脑读不懂语意 所以需要使用一些数学方法撷取出相对重要的
: 词,做为该文件的索引字,例如使用 ”马英九” ”慢跑” 这两个字
: 做为马英九慢跑这篇新闻的索引字。
: 2.建造分类器:分类器有很多种 可以选择SVM KNN等 都有不同特性
: 3.Pattern Matching: 将需要分类的新文件 与过去使用Training data 所建制的
: 分类器 做比对的动作 计算相似度 接着决定这分新文件属於哪
: 个类别
: 以上是三个连贯的流程 也就是说 其中一个环节有错 就会直接对结果产生影响
: 另外越前端的环节做不好 产生的影响越大
: 其实我现在的问题是 我有一个benchmark 有相似的类别 也有非常独立的类别
: 使用这个benchmark 来测试分类器的准度 使用一定比例进行Training 和 Testing
: 相似的类别使用数学方法 计算权重 撷取出来的字非常相似 经常重叠
: 这连带的影响到後端分类器的建置 分类器无法明显的区分出这两个类别
: 就搞得头好痛 那个benchmark 叫做 20newsgroup 有几个很难区分的类别分别是
: "atheism" ,"talk.religion.misc","religion.christian" 这几个类别截取出来的字
: 常常就是 "god","christian" ,"christ" 等 经常谈论到神 如果使用关连法则作为分
: 类器 就很容易产生 {god,christian}->talk.religion.misc 和 {god,christian}->
: religion.christian 这种容易混淆的规则 因为分类器就是依照这些撷取出来字
: 搭配所使用的分类器 所产生的pattern 进行分类
: 不知道这样子有没有说明白...不好意思 麻烦了
--
My blog:
http://sandwichc-life.blogspot.com/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 146.186.229.10