作者cansas (cansas)
看板CSSE
标题Re: [请益] 有没有一样是研究text mining的同好呢
时间Mon Feb 16 01:03:06 2009
※ 引述《cansas (cansas)》之铭言:
: 标题: [请益] 有没有一样是研究text mining的同好呢
: 时间: Mon Feb 16 00:14:46 2009
:
: 唉 是这样的 小弟目前在研究文件分类
:
: 但是一直有瓶颈 就是相似的类别
:
: 不管怎麽桥 它们经过特徵值截取出来的字
:
: 实在是太相像了 不好的开始 导致了最後分类效果非常的差
:
: 正在苦恼 真的不知道该怎麽办 想请问有没有一样是做文件分类的同好
:
: 可以一同讨论
:
: --
:
※ 发信站: 批踢踢实业坊(ptt.cc)
: ◆ From: 125.230.69.106
: 推 PsMonkey:ㄜ... 我帮别人作过文件分类,算有一点基础 02/16 00:44
: → PsMonkey:不过我看不太懂你的问题,请说清楚一点吧 XD(请勿来信) 02/16 00:45
其实是这样的 text mining 可以粗略简化为三个流程
1.特值撷取: 因为电脑读不懂语意 所以需要使用一些数学方法撷取出相对重要的
词,做为该文件的索引字,例如使用 ”马英九” ”慢跑” 这两个字
做为马英九慢跑这篇新闻的索引字。
2.建造分类器:分类器有很多种 可以选择SVM KNN等 都有不同特性
3.Pattern Matching: 将需要分类的新文件 与过去使用Training data 所建制的
分类器 做比对的动作 计算相似度 接着决定这分新文件属於哪
个类别
以上是三个连贯的流程 也就是说 其中一个环节有错 就会直接对结果产生影响
另外越前端的环节做不好 产生的影响越大
其实我现在的问题是 我有一个benchmark 有相似的类别 也有非常独立的类别
使用这个benchmark 来测试分类器的准度 使用一定比例进行Training 和 Testing
相似的类别使用数学方法 计算权重 撷取出来的字非常相似 经常重叠
这连带的影响到後端分类器的建置 分类器无法明显的区分出这两个类别
就搞得头好痛 那个benchmark 叫做 20newsgroup 有几个很难区分的类别分别是
"atheism" ,"talk.religion.misc","religion.christian" 这几个类别截取出来的字
常常就是 "god","christian" ,"christ" 等 经常谈论到神 如果使用关连法则作为分
类器 就很容易产生 {god,christian}->talk.religion.misc 和 {god,christian}->
religion.christian 这种容易混淆的规则 因为分类器就是依照这些撷取出来字
搭配所使用的分类器 所产生的pattern 进行分类
不知道这样子有没有说明白...不好意思 麻烦了
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 125.230.69.106
1F:推 Huangs:2 跟 3 不是同一件事吗? 02/16 01:27
2F:推 PsMonkey:2 跟 3 不同喔... 2 是决定方法而已... 02/16 01:31
3F:→ micklin:建立hierarchy分类树先把好分的分出来 02/16 01:43
4F:→ micklin:再利用significance比较高的term下去算, 卡掉noise. 02/16 01:44
5F:→ micklin:或者应该说, 为什麽你会觉得你用的演算法可以分得很好? 02/16 01:44
※ 编辑: cansas 来自: 125.230.69.106 (02/16 02:09)
※ 编辑: cansas 来自: 125.230.69.106 (02/16 02:14)
6F:→ cansas:其实我正在尝试一些新方法 很独立的类别已经可以分的不错 02/16 02:14
7F:→ cansas:但往往整体的准度会被几个容易搞混的类别拉下来 正在伤脑筋 02/16 02:15
8F:→ cansas:micklin 先生您的方法 我会尝试看看 感激不尽 02/16 02:17