Re: [请益] 有没有一样是研究text mining的同好呢

时间Mon Feb 16 01:03:06 2009

※ 引述《cansas (cansas)》之铭言： : 标题: [请益] 有没有一样是研究text mining的同好呢 : 时间: Mon Feb 16 00:14:46 2009 : : 唉是这样的小弟目前在研究文件分类 : : 但是一直有瓶颈就是相似的类别 : : 不管怎麽桥它们经过特徵值截取出来的字 : : 实在是太相像了不好的开始导致了最後分类效果非常的差 : : 正在苦恼真的不知道该怎麽办想请问有没有一样是做文件分类的同好 : : 可以一同讨论 : : -- :

※ 发信站: 批踢踢实业坊(ptt.cc) : ◆ From: 125.230.69.106 : 推 PsMonkey:ㄜ... 我帮别人作过文件分类，算有一点基础 02/16 00:44 : → PsMonkey:不过我看不太懂你的问题，请说清楚一点吧 XD（请勿来信） 02/16 00:45 其实是这样的 text mining 可以粗略简化为三个流程 1.特值撷取: 因为电脑读不懂语意　所以需要使用一些数学方法撷取出相对重要的词，做为该文件的索引字，例如使用　”马英九”　”慢跑”　这两个字做为马英九慢跑这篇新闻的索引字。 2.建造分类器：分类器有很多种　可以选择ＳＶＭ　ＫＮＮ等　都有不同特性 3.Pattern Matching: 将需要分类的新文件　与过去使用Training data 所建制的分类器　做比对的动作　计算相似度　接着决定这分新文件属於哪个类别以上是三个连贯的流程　也就是说　其中一个环节有错　就会直接对结果产生影响另外越前端的环节做不好　产生的影响越大　其实我现在的问题是　我有一个benchmark 有相似的类别　也有非常独立的类别使用这个benchmark 来测试分类器的准度使用一定比例进行Training 和 Testing 相似的类别使用数学方法　计算权重　撷取出来的字非常相似　经常重叠这连带的影响到後端分类器的建置　分类器无法明显的区分出这两个类别就搞得头好痛　那个benchmark 叫做　20newsgroup 有几个很难区分的类别分别是 "atheism" ,"talk.religion.misc","religion.christian" 这几个类别截取出来的字常常就是　"god","christian" ,"christ"　等　经常谈论到神　如果使用关连法则作为分类器就很容易产生 {god,christian}->talk.religion.misc 和 {god,christian}-> religion.christian 这种容易混淆的规则因为分类器就是依照这些撷取出来字搭配所使用的分类器所产生的pattern 进行分类不知道这样子有没有说明白...不好意思　麻烦了 --

※ 发信站: 批踢踢实业坊(ptt.cc) ◆ From: 125.230.69.106

1^F：推 Huangs:2 跟 3 不是同一件事吗？ 02/16 01:27

2^F：推 PsMonkey:2 跟 3 不同喔... 2 是决定方法而已... 02/16 01:31

3^F：→ micklin:建立hierarchy分类树先把好分的分出来 02/16 01:43

4^F：→ micklin:再利用significance比较高的term下去算, 卡掉noise. 02/16 01:44

5^F：→ micklin:或者应该说, 为什麽你会觉得你用的演算法可以分得很好? 02/16 01:44

※ 编辑: cansas 来自: 125.230.69.106 (02/16 02:09) ※ 编辑: cansas 来自: 125.230.69.106 (02/16 02:14)

6^F：→ cansas:其实我正在尝试一些新方法很独立的类别已经可以分的不错 02/16 02:14

7^F：→ cansas:但往往整体的准度会被几个容易搞混的类别拉下来正在伤脑筋 02/16 02:15

8^F：→ cansas:micklin 先生您的方法我会尝试看看感激不尽 02/16 02:17

	[问题/行为] 猫晚上进房间会不会有憋尿问题
	Re: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一张
	[心得] EMS高领长版毛衣.墨小楼MC1002
	[分享] 丹龙隔热纸GE55+33+22
	[问题] 清洗洗衣机
	[寻物] 窗台下的空间
	[闲聊] 双极の女神1 木魔爵
	[售车] 新竹 1997 march 1297cc 白色四门
	[讨论] 能从照片感受到摄影者心情吗
	[狂贺] 贺贺贺贺贺！岛村卯月！总选举NO.1
	[难过] 羡慕白皮肤的女生
	阅读文章
	[黑特]
	[问题] SBK S1安装於安全帽位置
	[分享] 旧woo100绝版开箱!!
	Re: [无言] 关於小包卫生纸
	[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
	[心得] 苍の海贼龙地狱执行者16PT
	[售车] 1999年Virage iO 1.8EXi
	[心得] 挑战33 LV10 狮子座pt solo
	[闲聊] 手把手教你不被桶之新手主购教学
	[分享] Civic Type R 量产版官方照无预警流出
	[售车] Golf 4 2.0 银色自排
	[出售] Graco提篮汽座（有底座）2000元诚可议
	[问题] 请问补牙材质掉了还能再补吗?(台中半年内
	[问题] 44th 单曲生写竟然都给重复的啊啊！
	[心得] 华南红卡/icash 核卡
	[问题] 拔牙矫正这样正常吗
	[赠送] 老莫高业初业 102年版
	[情报] 三大行动支付本季掀战火
	[宝宝] 博客来Amos水蜡笔5/1特价五折
	Re: [心得] 新鲜人一些面试分享
	[心得] 苍の海贼龙地狱麒麟25PT
	Re: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
	Re: [闲聊] OGN中场影片：失踪人口局 (英文字幕)
	[问题] 台湾大哥大4G讯号差
	[出售] [全国]全新千寻侘草LED灯, 水草

WEB批踢踢(PTT)

CSSE 板

Re: [请益] 有没有一样是研究text mining的同好呢

热门看板

赞助商连结