作者wayne64001 (哥,闭嘴啦)
看板DataScience
标题[问题] 想请问中文资料前处理
时间Fri Nov 8 16:00:39 2019
小弟我是第一次处理中文资料的问题
目前是打算用Keras LSTM做新闻的 Multi label classification
但是4个epoch就遇到了overfitting的问题 validation loss开始上升 且validation的准
确率也只有5成
我稍微评估了一下 问题应该在我前处理的部份(有试dropout跟 L1 L2)
我目前处理的方法为读取资料後就利用jieba.cut 并读取别人建立的字典
同时也用stopword字典去除停词
这两个步骤後就放入keras Tokenizer, texts_to_sequences, sequence.pad_sequences
成为我的X 而後就在model内进行Embedding
想请问处理繁体中文资料要怎麽修改才不会overfitting呢?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 111.246.89.216 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1573200041.A.C8E.html
※ 编辑: wayne64001 (111.246.89.216 台湾), 11/08/2019 16:02:02
1F:推 st1009: 可以试试用字不要用词(?11/08 18:45
2F:推 st1009: 我猜有可能语料太小OOV太多,而且一些论文显示断词不会让11/08 18:47
3F:推 st1009: 你得到更好的效果11/08 18:47
4F:推 xiangying: 试试ckipws11/09 00:41
ckip处理大量资料要跑好久...是个人问题吗?
※ 编辑: wayne64001 (101.10.98.164 台湾), 11/09/2019 13:50:04
5F:推 a810501: 直接用bert来做transfer learning吧~他有中文预训练模 11/10 00:56
6F:→ a810501: 型也不用管断词问题 11/10 00:56
7F:推 shhs1000246: bert直接下去啊 断词用结巴效果不好 除非是有改过的 11/11 02:45
8F:推 wainshain: CKIP本来就要跑很久是他的弱点 11/12 09:01
9F:→ wainshain: 现在都bert就不用管懂不懂那个词了,超好用 11/12 09:02
10F:→ sheep1129588: 直接芝麻街好朋友系列一排试下来XDD, BERT, ELMO 11/12 11:54
11F:推 ciaoPTT: bert真心好用 11/12 19:16
12F:推 roccqqck: 大家bert都pip安装哪个写啊 11/12 19:44
13F:→ roccqqck: transformers吗 11/12 19:44
14F:→ roccqqck: 还是bert-tensorflow 11/12 19:44
15F:→ roccqqck: 我是用前者 11/12 19:45
16F:推 sheep1129588: huggingface有bert的pytorch版,还蛮好用的 11/16 16:53
17F:推 roccqqck: 我就是用huggingface的transformers 但我用tf版 11/16 18:12
18F:推 somoskylin: 楼上大大能否给个关键字,我想看断词不太影响结果的 11/21 15:59
19F:→ somoskylin: 论文 11/21 15:59
20F:推 st1009: Is Word Segmentation Necessary for Deep Learning of 11/21 22:35
22F:→ sxy67230: 我是用tf2.0的modeling模组 11/22 09:28
23F:推 somoskylin: 感谢 11/24 18:58