作者PsMonkey (痞子军团团长)
看板CSSE
标题Re: [请益] 有没有一样是研究text mining的同好呢
时间Mon Feb 16 01:30:40 2009
※ 引述《cansas (cansas)》之铭言:
: 其实是这样的 text mining 可以粗略简化为三个流程
: 1.特值值截取: 因为电脑读不懂语意 所以需要使用一些数学方法截取出相对重要的
: 词,做为该文件的索引字,例如使用 ”马英九” ”慢跑” 这两个字
: 做为马英九慢跑这篇新闻的索引字。
: 2.建造分类器:分类器有很多种 可以选择SVM KNN等 都有不同特性
: 3.Pattern Matching: 将需要分类的新文件 与过去使用Training data 所建制的的
: 分类器 做比对的动作 计算相似度 接着决定这分新文件属於哪
: 个类别
: 以上是三个连贯的流程 也就是说 其中一个环节有错 就会直接对结果产生影响
: 另外越前端的环节做不好 产生的影响越大
: 其实我现在的问题是 我有一个benchmark 有相似的类别 也有非常独立的类别
: 相似的类别使用数学方法 计算权重 截取出来的字非常相似 经常重叠
: 这连带的影响到後端分类器的建置 分类器无法明显的区分出这两个类别
: 就搞得头好痛 那个benchmark 叫做 20newsgroup 有几个很难区分的类别分别是
: "atheism" ,"talk.religion.misc","religion.christian" 这几个类别截取出来的字
: 常常就是 "god","christian" ,"christ" 等 经常谈论到神
: 不知道这样子有没有说明白...不好意思 麻烦了
有些东西我还是看不太懂,而且错字一堆
(例如 20newsgroup 是啥,里头的类别又是啥?)
你应该是卡在第一阶段,但是跟你後面的叙述又搭不起来
大概是我程度太差... 请不用理我,下面也当作我自言自语
如果选定一个特徵词库(或是所有的 term 都下海... [奸笑])
那责任算在那个词库上...
(反正也不可能自己建立一个公认有权威性的词库)
接下来找 TF-IDF 这类的计算方法,看看哪一个可以「迎合」效果
(理论上 TF-IDF 就能够降低「大多数文件都有某个词」的影响了
至少数学是这样子告诉我们...... )
讲难听一点... 能作的也只有这几件事情... (吧?)
如果几个八竿子打不着的文章都有相同的特徵词
就好像不同类型的电影里头骂的脏话都一样
要拿脏话当特徵词.... 然後哀号没办法分类... 这......
有错还请各方高手指正
我不是研究这个的,只是帮别人写论文实作,被迫得了解一些...
(而且还是作分群,不是分类 XDXD)
====
都说请勿来信了,那要求 talk 是怎样...
这年头的人都不管礼节,也不在乎别人的要求就是了...
--
侃侃长论鲜窒碍 首页:
http://www.psmonkey.idv.tw
众目睽睽无心颤 Blog:
http://ps-think.blogspot.com
茕居少聊常人事
杀头容易告白难 欢迎参观 Java 版(@ptt.cc) \囧/
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.228.197.217
1F:推 micklin:20个news group 02/16 01:42
2F:推 cansas:PsMonkey 不好意思喔 我就是按到talk 不是故意的 打扰了 02/16 01:53
3F:推 TroyLee:要怎麽按talk压 @@ 02/16 01:55
4F:→ PsMonkey:hmmm... 我也不知道怎麽从文章列表 talk 人 XDXD 02/16 01:57
5F:推 cansas:我是从休闲聊天区 但那时候我看太快 就没想太多直接按了 02/16 01:58
6F:→ PsMonkey:还是回归主题吧... 你的问题到底是什麽 XD 02/16 02:00
7F:→ cansas:我的问题是 有没有什麽方法 可以从相似的资料中 撷取比较 02/16 02:04
8F:→ cansas:重要的词汇 因为我其实是个研究生 正在尝试这方面的研究 02/16 02:04
9F:→ PsMonkey:简单(武断)地说:无法。你自己都说是相似了... 02/16 02:17
10F:→ PsMonkey:当然我也希望你能产生出一个 general case 的方法 XDXD 02/16 02:17
11F:推 cansas:谢谢 正在研究中....... 02/16 02:26
12F:→ nomuse:如果是要找出重要字汇 有尝试过tf idf吗? 02/16 09:21
13F:→ nomuse:依照文章长短 文章间相似度 找适合的model及tf idf值 02/16 09:22
14F:→ nomuse:方法确立之後 就要靠调参数了 = =" 02/16 09:23
15F:→ nomuse:这类演算法很多 算是研究蛮完整的领域了 不彷找本书 02/16 09:25
16F:→ nomuse:挑选最适合你文件特性的演算法 02/16 09:25
17F:→ nomuse:哈 欢迎讨论 我很闲 只是也不强就是了 不一定帮的到忙 02/16 09:26
18F:推 cansas:我是使用Mutual Information 但效果似乎不显着 02/18 22:01