CSSE 板


LINE

※ 引述《sandwichC (没回应=挂站)》之铭言: : 标题: Re: [请益] 有没有一样是研究text mining的同好呢 : 时间: Fri Feb 20 00:26:03 2009 : : 20newsgroup的资料算是相当容易判别的资料了 : 用十年前的 Naive Bayesian Text Classifiation : (http://www.cs.cmu.edu/~knigam/papers/multinomial-aaaiws98.pdf ) : : 当training 和 testing data set 各占50%时,就可以达到平均85%以上的正确率 : 就算是你说的比较难分的 religious.misc 也有 60% 以上的正确率 : 如果你再用一些 feature selection 的技巧,平均正确率达到95%以上没问题 : : Dr. McCallum 的 Bow (http://www.cs.cmu.edu/~mccallum/bow/ ) : 可以完全做到你要做的事 : 该网页也是用20newsgroup做例子 : 连feature selection都帮你准备妥当了 : : : : 其实是这样的 text mining 可以粗略简化为三个流程 : : 1.特值撷取: 因为电脑读不懂语意 所以需要使用一些数学方法撷取出相对重要的 : : 词,做为该文件的索引字,例如使用 ”马英九” ”慢跑” 这两个字 : : 做为马英九慢跑这篇新闻的索引字。 : : 2.建造分类器:分类器有很多种 可以选择SVM KNN等 都有不同特性 : : 3.Pattern Matching: 将需要分类的新文件 与过去使用Training data 所建制的 : : 分类器 做比对的动作 计算相似度 接着决定这分新文件属於哪 : : 个类别 : : 以上是三个连贯的流程 也就是说 其中一个环节有错 就会直接对结果产生影响 : : 另外越前端的环节做不好 产生的影响越大  : : 其实我现在的问题是 我有一个benchmark 有相似的类别 也有非常独立的类别 : : 使用这个benchmark 来测试分类器的准度 使用一定比例进行Training 和 Testing : : 相似的类别使用数学方法 计算权重 撷取出来的字非常相似 经常重叠 : : 这连带的影响到後端分类器的建置 分类器无法明显的区分出这两个类别 : : 就搞得头好痛 那个benchmark 叫做 20newsgroup 有几个很难区分的类别分别是 : : "atheism" ,"talk.religion.misc","religion.christian" 这几个类别截取出来的字 : : 常常就是 "god","christian" ,"christ" 等 经常谈论到神 如果使用关连法则作为分 : : 类器 就很容易产生 {god,christian}->talk.religion.misc 和 {god,christian}-> : : religion.christian 这种容易混淆的规则 因为分类器就是依照这些撷取出来字 : : 搭配所使用的分类器 所产生的pattern 进行分类 : : 不知道这样子有没有说明白...不好意思 麻烦了 : : -- : My blog: http://sandwichc-life.blogspot.com/ : : -- :



※ 发信站: 批踢踢实业坊(ptt.cc)
: ◆ From: 146.186.229.10 您给我的资讯非常宝贵 我是在研究一些特徵值截取的方法 例如 Tf-idf ,Mutual Information 等 这些方法的共同点是 相似的类别截取出来的特徵值会很像 但因为我正在研究 一些新的特徵值截取方式 所以 BOW 这个工具里面已经有的方法 可能帮助有限 不过您提的贝式分类器 倒是给了我不少灵感 因为我一直怀疑自己的研究 准度一直上升不起来的原因 可能是建制分类器的方法太阳春了 才会有这个问题 所以近几天 稍微研究了一下贝式分类器的特色 非常感谢您的资讯 --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 125.230.76.227
1F:推 PsMonkey:囧... 看来你的论文的研究基础十分... 危险 Orz 02/22 17:47
2F:→ cansas:因为没使用一些比较着名的分类器 就是在研究嘛..... 02/22 17:58
3F:推 willhunting:光靠tf-idf, chi-square等的确准度高不起来 02/23 00:02
4F:→ willhunting:你该多去找找论文看看更复杂的feature selection 02/23 00:02
5F:→ willhunting:建议你去找一个叫作bns的metric 02/23 00:03
6F:→ willhunting:不管如何 只基於字频的classifier几乎无法做到很好 02/23 00:03







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP