作者pugbana (口正)
看板DataScience
标题[问题] 分类问题 栏位中有文字的处理方式
时间Tue Mar 31 23:02:20 2020
小弟新手发问如有文字上描述疏失请见谅,会再更改
如题,一个作业要预测男女的分类问题。
栏位中有一栏为文字的自我介绍,
目前在上网查找的文章中,文本分类基本上就是只针对文字内容进行处理跟预测,找不到
分类问题中栏位内有文字跟没文字都有的教学,
因此想请教几个作法是否正确:
1.目前文字的特徵是用tfidf算完,请问算完的栏位要合并到原本的资料集一起训练
2.tfidf栏位跟原有的栏位分开训练,文字栏位先训练完将预测结果放入原有资料集的栏
位,再进行训练
3.是否有较正统、常规的作法
或是提供关键字让小弟可以上网再找看看 谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.72.137.88 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1585666942.A.F42.html
1F:→ darklose: 我觉得两个作法的差异在於 fusion 的阶段不同,法ㄧ为 f 04/01 10:10
2F:→ darklose: eature fusion,是用全部栏位去描述那一个人;法二比较 04/01 10:10
3F:→ darklose: 接近结果 fusion,用自我介绍的预测结果去混合其他栏位 04/01 10:10
4F:→ darklose: 的预测结果。总的来说,看你要用什麽思维来描述你的解法 04/01 10:10
5F:→ darklose: ,并从中实作结果。 04/01 10:10
6F:→ pugbana: 谢谢大大观念讲解,非常明确~ 04/01 23:34
7F:推 BigTounge: 我的话会将自我介绍词向量加总并入原本的资料一起训练 04/02 03:35
8F:→ BigTounge: 没有的就塞0 04/02 03:36