作者whwt (逼波波)
看板DataScience
标题[问题] 时间序列LSTM及未知词处理
时间Thu Jan 10 13:39:13 2019
作业系统: Linux
问题类别: DL, LSTM, Word Embedding, Word2vec, OOV
使用工具: python3, keras, tensorflow backend
问题内容:
最近在训练时间序列的 LSTM 问题(中文词性标记)
先把资料(已分好词且有label)分成 training data 和 testing data
先用 training data 丢进 Word2vec 预训练 Word Vector
再使用 LSTM 训练、预测词性类别
但是当 testing data 丢进去的时候,因为有些词并不包括在 training data 中
所以这些词变成未知词(OOV)
我目前的处理方式是给 OOV 一个零的向量
上网查了一下大家处理 OOV 的问题,大多是英文的,没看到中文的资料
想问问看有没有比较好的处理中文 OOV 的方法
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 140.112.26.241
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1547098756.A.F31.html
1F:推 sean50301: 如果你可以标到OOV的字 而且准确率不错 记得赶快发论 01/10 22:46
2F:→ sean50301: 文 01/10 22:46
3F:推 sean50301: 如果你是指embedding查不到 通常会用random给值是没错 01/10 22:48
4F:→ tsoahans: 直接去掉OOV的词也是一种作法 另外就是用char-level处理 01/11 13:01