CSSE 板


LINE

※ 引述《cansas (cansas)》之铭言: : 其实是这样的 text mining 可以粗略简化为三个流程 : 1.特值值截取: 因为电脑读不懂语意 所以需要使用一些数学方法截取出相对重要的 : 词,做为该文件的索引字,例如使用 ”马英九” ”慢跑” 这两个字 : 做为马英九慢跑这篇新闻的索引字。 : 2.建造分类器:分类器有很多种 可以选择SVM KNN等 都有不同特性 : 3.Pattern Matching: 将需要分类的新文件 与过去使用Training data 所建制的的 : 分类器 做比对的动作 计算相似度 接着决定这分新文件属於哪 : 个类别 : 以上是三个连贯的流程 也就是说 其中一个环节有错 就会直接对结果产生影响 : 另外越前端的环节做不好 产生的影响越大  : 其实我现在的问题是 我有一个benchmark 有相似的类别 也有非常独立的类别 : 相似的类别使用数学方法 计算权重 截取出来的字非常相似 经常重叠 : 这连带的影响到後端分类器的建置 分类器无法明显的区分出这两个类别 : 就搞得头好痛 那个benchmark 叫做 20newsgroup 有几个很难区分的类别分别是 : "atheism" ,"talk.religion.misc","religion.christian" 这几个类别截取出来的字 : 常常就是 "god","christian" ,"christ" 等 经常谈论到神  : 不知道这样子有没有说明白...不好意思 麻烦了 有些东西我还是看不太懂,而且错字一堆 (例如 20newsgroup 是啥,里头的类别又是啥?) 你应该是卡在第一阶段,但是跟你後面的叙述又搭不起来 大概是我程度太差... 请不用理我,下面也当作我自言自语 如果选定一个特徵词库(或是所有的 term 都下海... [奸笑]) 那责任算在那个词库上... (反正也不可能自己建立一个公认有权威性的词库) 接下来找 TF-IDF 这类的计算方法,看看哪一个可以「迎合」效果 (理论上 TF-IDF 就能够降低「大多数文件都有某个词」的影响了 至少数学是这样子告诉我们...... ) 讲难听一点... 能作的也只有这几件事情... (吧?) 如果几个八竿子打不着的文章都有相同的特徵词 就好像不同类型的电影里头骂的脏话都一样 要拿脏话当特徵词.... 然後哀号没办法分类... 这...... 有错还请各方高手指正 我不是研究这个的,只是帮别人写论文实作,被迫得了解一些... (而且还是作分群,不是分类 XDXD) ==== 都说请勿来信了,那要求 talk 是怎样... 这年头的人都不管礼节,也不在乎别人的要求就是了... -- 侃侃长论鲜窒碍 首页:http://www.psmonkey.idv.tw 众目睽睽无心颤 Blog:http://ps-think.blogspot.com 茕居少聊常人事 杀头容易告白难 欢迎参观 Java 版(@ptt.cc) \囧/ --



※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 61.228.197.217
1F:推 micklin:20个news group 02/16 01:42
2F:推 cansas:PsMonkey 不好意思喔 我就是按到talk 不是故意的 打扰了 02/16 01:53
3F:推 TroyLee:要怎麽按talk压 @@ 02/16 01:55
4F:→ PsMonkey:hmmm... 我也不知道怎麽从文章列表 talk 人 XDXD 02/16 01:57
5F:推 cansas:我是从休闲聊天区 但那时候我看太快 就没想太多直接按了 02/16 01:58
6F:→ PsMonkey:还是回归主题吧... 你的问题到底是什麽 XD 02/16 02:00
7F:→ cansas:我的问题是 有没有什麽方法 可以从相似的资料中 撷取比较 02/16 02:04
8F:→ cansas:重要的词汇 因为我其实是个研究生 正在尝试这方面的研究 02/16 02:04
9F:→ PsMonkey:简单(武断)地说:无法。你自己都说是相似了... 02/16 02:17
10F:→ PsMonkey:当然我也希望你能产生出一个 general case 的方法 XDXD 02/16 02:17
11F:推 cansas:谢谢 正在研究中....... 02/16 02:26
12F:→ nomuse:如果是要找出重要字汇 有尝试过tf idf吗? 02/16 09:21
13F:→ nomuse:依照文章长短 文章间相似度 找适合的model及tf idf值 02/16 09:22
14F:→ nomuse:方法确立之後 就要靠调参数了 = =" 02/16 09:23
15F:→ nomuse:这类演算法很多 算是研究蛮完整的领域了 不彷找本书 02/16 09:25
16F:→ nomuse:挑选最适合你文件特性的演算法 02/16 09:25
17F:→ nomuse:哈 欢迎讨论 我很闲 只是也不强就是了 不一定帮的到忙 02/16 09:26
18F:推 cansas:我是使用Mutual Information 但效果似乎不显着 02/18 22:01







like.gif 您可能会有兴趣的文章
icon.png[问题/行为] 猫晚上进房间会不会有憋尿问题
icon.pngRe: [闲聊] 选了错误的女孩成为魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一张
icon.png[心得] EMS高领长版毛衣.墨小楼MC1002
icon.png[分享] 丹龙隔热纸GE55+33+22
icon.png[问题] 清洗洗衣机
icon.png[寻物] 窗台下的空间
icon.png[闲聊] 双极の女神1 木魔爵
icon.png[售车] 新竹 1997 march 1297cc 白色 四门
icon.png[讨论] 能从照片感受到摄影者心情吗
icon.png[狂贺] 贺贺贺贺 贺!岛村卯月!总选举NO.1
icon.png[难过] 羡慕白皮肤的女生
icon.png阅读文章
icon.png[黑特]
icon.png[问题] SBK S1安装於安全帽位置
icon.png[分享] 旧woo100绝版开箱!!
icon.pngRe: [无言] 关於小包卫生纸
icon.png[开箱] E5-2683V3 RX480Strix 快睿C1 简单测试
icon.png[心得] 苍の海贼龙 地狱 执行者16PT
icon.png[售车] 1999年Virage iO 1.8EXi
icon.png[心得] 挑战33 LV10 狮子座pt solo
icon.png[闲聊] 手把手教你不被桶之新手主购教学
icon.png[分享] Civic Type R 量产版官方照无预警流出
icon.png[售车] Golf 4 2.0 银色 自排
icon.png[出售] Graco提篮汽座(有底座)2000元诚可议
icon.png[问题] 请问补牙材质掉了还能再补吗?(台中半年内
icon.png[问题] 44th 单曲 生写竟然都给重复的啊啊!
icon.png[心得] 华南红卡/icash 核卡
icon.png[问题] 拔牙矫正这样正常吗
icon.png[赠送] 老莫高业 初业 102年版
icon.png[情报] 三大行动支付 本季掀战火
icon.png[宝宝] 博客来Amos水蜡笔5/1特价五折
icon.pngRe: [心得] 新鲜人一些面试分享
icon.png[心得] 苍の海贼龙 地狱 麒麟25PT
icon.pngRe: [闲聊] (君の名は。雷慎入) 君名二创漫画翻译
icon.pngRe: [闲聊] OGN中场影片:失踪人口局 (英文字幕)
icon.png[问题] 台湾大哥大4G讯号差
icon.png[出售] [全国]全新千寻侘草LED灯, 水草

请输入看板名称,例如:BuyTogether站内搜寻

TOP