作者ctr1 (【积π】)
看板DataScience
标题[问题] 文本分类加入非文本内容特徵
时间Wed Oct 16 21:34:21 2019
想请问各位版上的大大
做E-mail文本分类时
邮件内容可使用自然语言处理
若想加入寄件人、收件人等
非邮件内容文字的特徵
该如何操作...
可以给点关键字或给点指点
感谢各位先进
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.25.138.103 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1571232863.A.907.html
1F:→ sxy67230: 最简单粗暴的方法就你把全部的特徵都拼接起来,全部喂入 10/16 23:15
2F:→ sxy67230: 一起train,第二种方法就训练三个以上的模型,一个做内 10/16 23:15
3F:→ sxy67230: 文分类,其他模型就各自训练各自的特徵分类,最後在做en 10/16 23:15
4F:→ sxy67230: semble 10/16 23:15
5F:→ a100006136: 你的寄件人和收件人,上面有什麽迹象显示它们是有用 10/24 18:05
6F:→ a100006136: 的feature? 10/24 18:05
7F:推 a100006136: 如果mail 小老鼠後面跟的字会有意义像是.com 或是.gov 10/24 18:10
8F:→ a100006136: 会建议也可以对这些做segmentation,再用train好的英 10/24 18:10
9F:→ a100006136: 文语言模型(web 文本train的)去抓feature 10/24 18:10
10F:→ a100006136: 基本上其他非信件本文的内容,第一步是对每个材料去 10/24 18:21
11F:→ a100006136: 思考如何量化,像是时间的格式、不同的寄信收件地址是 10/24 18:21
12F:→ a100006136: 否进行编号、图片则要用像素表示 10/24 18:21
13F:→ a100006136: 然後再来就是每个材料适合的处理方式,时间的连续性可 10/24 18:21
14F:→ a100006136: 以让它独立成为一个feature、地址的表示法可以像前面 10/24 18:21
15F:→ a100006136: 说的视同文本取特徵、也可以当作不同的item 取one-hot 10/24 18:21
16F:→ a100006136: 、图片也是先接个cnn变成向量 10/24 18:21
17F:推 a100006136: 至於模型的训练选择就如同1楼讲的那样,可以用多个模 10/24 18:24
18F:→ a100006136: 型一起预测,也可以暴力concat这些特徵,每份邮件都 10/24 18:24
19F:→ a100006136: 表示成一个向量後直接丢ML套件来分类也没什麽不行 10/24 18:24
20F:推 OnePiecePR: 统统送进去,只用label 指点方向 10/24 20:38
21F:→ chobit199685: 修成联合模型多输入即可 11/07 21:43
22F:推 sheep1129588: 先用bert把文本弄成embedding再concat其他东西再塞 11/12 11:58
23F:→ sheep1129588: 进一个classifier? 11/12 11:58
24F:推 roccqqck: concatenate的model1 model2可以不同features吗 11/24 19:42
25F:→ roccqqck: concatenate出来的model3 是跟model1 model2同时一起tra 11/25 13:42
26F:→ roccqqck: in吗? 11/25 13:42