作者moodoa3583 (金牌台湾啤酒)
看板DataScience
标题[问题] 提升关键字提取的准确度
时间Sun Feb 2 21:59:20 2020
嗨大家晚安
我想问一个我最近碰到的问题:
假设我想为PTT上每一篇热门文章标上关键字,若以非监督式学习直接套用TFIDF
分类,准确率我们都知道和人类想比是望尘莫及的。
所以假设我们已经手动标注了5000篇文章。并产生一万个关键字
(其中有7000个关键字不重复),
此时我们可以把这七千个关键字加入分词字典,让文章可以更如我们所愿地被分词,
同时在这些关键字上带上加权,只要分词出来的词在这些关键字里面,就给
x*(关键字出现次数)
举例来说,这一万个关键字里面,"口罩"出现了24次,那就给24x当权重
如此一来,关键字的准确度的确能够有所提升,但出现了以下的缺点:
1.
若非在这手动分出的7000个关键字里面,则几乎不可能被当关键字被提出,
原因可能为加权太重,但如果加权太轻,则会有许多无关紧要的字词被提取出
2.
机器无法学习新字,虽然我们可以爬google每日热门搜寻关键字加入字典,
但依然不够使用
3.
因应第1,2点,我想让TFIDF值高於某一定值时也能被提取出,但我们知道
TFIDF值会随着文章字数改变,我不想提取到不重要的词,因此我们需要一个filter,
让文章字数少时filter高,文章字数多时filter低,想问有甚麽曲线比较适合呢?
(如果单纯取第三四分位数或TFIDF在前80%以上的字还是有可能取到不重要的词)
以上三点是我主要的瓶颈,如果还有甚麽方法可以让模型表现更好,还请不吝指教
谢谢各位
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 36.228.66.247 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1580651962.A.798.html
※ 编辑: moodoa3583 (36.228.66.247 台湾), 02/02/2020 22:00:46
1F:推 kokolotl: 我是用中研院断词跟textrank来做 02/03 19:26
嗨,感谢回文。因为ptt上有许多乡民用语,所以单纯用中研院或其他原生套件并不能萃取出好的分词,才会想要用监督式的方法
※ 编辑: moodoa3583 (114.137.201.144 台湾), 02/03/2020 19:56:21
2F:推 steven95421: 有点像bm25让他饱和? 02/05 09:08
有点相反过来,bm25应该是输入n个关键字进模型然後找出相关文本?跟搜寻引擎的概念比较像
※ 编辑: moodoa3583 (114.137.201.144 台湾), 02/05/2020 09:26:04