作者del680202 (HANA)
看板DataScience
标题[问题] 数据少时如何做文章分类
时间Tue Feb 18 23:45:54 2020
最近替人研究怎麽做文章分类
手中拿到数据有约100篇文章 分了十几个类别
不知是数据太少了 参考某篇用nltk+svm的范例
分对机率非常之低 几乎是乱猜
用sklearn给的news数据测试倒是表现还蛮好的
目前在想有什麽对策
请对方给更多数据吗 好像短期内也没办法
有想说找找few shot learning 方法 不过没有很清晰的方向
对方有提到或者不分类直接从文章抽取tag当类别
目前有想到用专有名词抽取的算法去做做看
不知道可不可行
还请高手指点
-----
Sent from JPTT on my iPhone
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 126.182.12.56 (日本)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1582040756.A.6CA.html
※ 编辑: del680202 (126.182.12.56 日本), 02/18/2020 23:51:06
※ 编辑: del680202 (126.182.12.56 日本), 02/18/2020 23:53:22
1F:推 itis0423: BERT 02/19 21:10
2F:→ linfeelin: 可以用PAN dataset 02/20 00:52
3F:推 kokolotl: bert可以直接拿Bert as service来用 02/20 10:01
4F:推 sxy67230: few shot learning 其实就是把原本分类的问题变成一个 02/20 16:01
5F:→ sxy67230: 比较的问题,自然就会增加很多可训练资料。 02/20 16:01
6F:推 sxy67230: 不过我建议是你可以先对他提供的文章做初步的分析,看 02/20 16:05
7F:→ sxy67230: 看feature够不够明确,是不是有办法透过关键字增加featu 02/20 16:05
8F:→ sxy67230: re 来分类。直接拿bert做fine tune 也是可以。 02/20 16:05
9F:→ del680202: 感谢各位的意见 我去找找bert相关的资料来切入 02/20 21:39
10F:推 sxy67230: 其实如果你是用python 我推荐你一个叫snorkel的套件, 02/21 18:40
11F:→ sxy67230: 基本上就是一个weak supervised learning 的模块,可以 02/21 18:40
12F:→ sxy67230: 用一些规则方式帮你做文字分析,在用多种规则联合推理 02/21 18:40
13F:→ sxy67230: 资料分布,在训练模型。另外,他还有资料增生的范例, 02/21 18:40
14F:→ sxy67230: 对你一定有帮助 02/21 18:40
15F:推 erre: 掰陈用svr只需要一间房子用电量就可以预测了! 02/22 08:25
16F:推 erre: 试试看call svm 02/22 08:56
17F:推 ypsc: 直接用文章内容分效果很差 要先parse出一些可以作为参考特徵 02/23 20:24
18F:→ ypsc: 再去作分类器 效果比较好 02/23 20:24
19F:推 ctr1: erre ㄋㄊㄇ乱回文回爽没 02/24 08:29
20F:推 goldflower: 该永桶了ㄅ= = 02/26 08:43
21F:推 st1009: 有人要蒐集证据向板主检举吗(? 02/26 11:49
22F:推 roccqqck: 他到处多恨交大andrew chen 02/26 13:04
23F:→ roccqqck: 到底 02/26 13:05
24F:→ goldflower: 居然有人知道他在说谁XDDDD 02/26 22:58
25F:推 luli0034: SVM对小量资料比较不友善 support vectors不够具代表性 05/05 13:09
26F:→ luli0034: 的话分类准确度不好 少量资料可以靠pretrained 在大量 05/05 13:09
27F:→ luli0034: 文本上的shallow embedding去些微提升 或者做些基本的da 05/05 13:09
28F:→ luli0034: ta augmentation (提升有限) 05/05 13:09
29F:→ luli0034: 是说资料的语言是? 05/05 13:10
30F:推 popo14777: 可用SVDD 支援向量资料描述 05/17 21:43