作者ctr1 (【积π】)
看板DataScience
标题[问题] 中文资料集分类
时间Tue Aug 28 10:22:14 2018
小弟初探资料科学
将中文信件资料集分类为两类B、C(依信件内容机密度)
若是已经将内容用jieba切好了
也使用TfidfTransform计算出每封e-mail的TF-IDF值
想请问接下来该怎麽继续操作
SVM k-means
可以请大大推荐可以让我学习的文章或youtube教学吗
谢谢
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 59.120.67.6
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1535422939.A.617.html
1F:→ DarkIllusion: 降维或选取特徵之类的吧 因为这样切词不是会很多吗? 08/28 18:11