Re: [请益] 有没有一样是研究text mining的同好呢

时间Sun Feb 22 17:40:09 2009

※ 引述《sandwichC (没回应=挂站)》之铭言： : 标题: Re: [请益] 有没有一样是研究text mining的同好呢 : 时间: Fri Feb 20 00:26:03 2009 : : 20newsgroup的资料算是相当容易判别的资料了 : 用十年前的 Naive Bayesian Text Classifiation : (http://www.cs.cmu.edu/~knigam/papers/multinomial-aaaiws98.pdf ) : : 当training 和 testing data set 各占50%时，就可以达到平均85%以上的正确率 : 就算是你说的比较难分的 religious.misc 也有 60% 以上的正确率 : 如果你再用一些 feature selection 的技巧，平均正确率达到95%以上没问题 : : Dr. McCallum 的 Bow (http://www.cs.cmu.edu/~mccallum/bow/ ) : 可以完全做到你要做的事 : 该网页也是用20newsgroup做例子 : 连feature selection都帮你准备妥当了 : : : : 其实是这样的 text mining 可以粗略简化为三个流程 : : 1.特值撷取: 因为电脑读不懂语意　所以需要使用一些数学方法撷取出相对重要的 : : 词，做为该文件的索引字，例如使用　”马英九”　”慢跑”　这两个字 : : 做为马英九慢跑这篇新闻的索引字。 : : 2.建造分类器：分类器有很多种　可以选择ＳＶＭ　ＫＮＮ等　都有不同特性 : : 3.Pattern Matching: 将需要分类的新文件　与过去使用Training data 所建制的 : : 分类器　做比对的动作　计算相似度　接着决定这分新文件属於哪 : : 个类别 : : 以上是三个连贯的流程　也就是说　其中一个环节有错　就会直接对结果产生影响 : : 另外越前端的环节做不好　产生的影响越大　 : : 其实我现在的问题是　我有一个benchmark 有相似的类别　也有非常独立的类别 : : 使用这个benchmark 来测试分类器的准度使用一定比例进行Training 和 Testing : : 相似的类别使用数学方法　计算权重　撷取出来的字非常相似　经常重叠 : : 这连带的影响到後端分类器的建置　分类器无法明显的区分出这两个类别 : : 就搞得头好痛　那个benchmark 叫做　20newsgroup 有几个很难区分的类别分别是 : : "atheism" ,"talk.religion.misc","religion.christian" 这几个类别截取出来的字 : : 常常就是　"god","christian" ,"christ"　等　经常谈论到神　如果使用关连法则作为分 : : 类器就很容易产生 {god,christian}->talk.religion.misc 和 {god,christian}-> : : religion.christian 这种容易混淆的规则因为分类器就是依照这些撷取出来字 : : 搭配所使用的分类器所产生的pattern 进行分类 : : 不知道这样子有没有说明白...不好意思　麻烦了 : : -- : My blog: http://sandwichc-life.blogspot.com/ : : -- :

※ 发信站: 批踢踢实业坊(ptt.cc) : ◆ From: 146.186.229.10 您给我的资讯非常宝贵我是在研究一些特徵值截取的方法例如 Tf-idf ,Mutual Information 等这些方法的共同点是相似的类别截取出来的特徵值会很像但因为我正在研究一些新的特徵值截取方式所以 BOW 这个工具里面已经有的方法可能帮助有限不过您提的贝式分类器倒是给了我不少灵感因为我一直怀疑自己的研究准度一直上升不起来的原因可能是建制分类器的方法太阳春了才会有这个问题所以近几天稍微研究了一下贝式分类器的特色非常感谢您的资讯 --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 125.230.76.227

1^F：推 PsMonkey:囧... 看来你的论文的研究基础十分... 危险 Orz 02/22 17:47

2^F：→ cansas:因为没使用一些比较着名的分类器就是在研究嘛..... 02/22 17:58

3^F：推 willhunting:光靠tf-idf, chi-square等的确准度高不起来 02/23 00:02

4^F：→ willhunting:你该多去找找论文看看更复杂的feature selection 02/23 00:02

5^F：→ willhunting:建议你去找一个叫作bns的metric 02/23 00:03

6^F：→ willhunting:不管如何只基於字频的classifier几乎无法做到很好 02/23 00:03

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

CSSE 板

Re: [请益] 有没有一样是研究text mining的同好呢

热门看板

赞助商连结