作者nchunerdy120 (batman)
看板DataScience
标题[问题] 从文字评论探勘分类器特徵值
时间Tue Jul 14 00:34:55 2020
作业系统: win10
问题类别:ML, NLP
使用工具: Python
问题内容:
主要任务是从餐饮评论中,找出能够套用在筛选餐饮的特徵值
例如所有评论都有类似「东西很好吃,价钱也不贵,可是服务不太好」的内容,就可以推
论餐饮普遍重视食物口味、服务、以及价钱
在知道口味,服务,价钱很重要後,该怎麽针对这三个特徵去给值呢? 例如A餐厅「东西
很好吃,价钱也不贵,可是服务不太好」,B餐厅「东西不好吃,价钱偏贵,可是服务很
好」,该怎麽给出A餐厅跟B餐厅,在口味,服务,价钱这三个面向的分数呢?
我目前的想法是不知道有没有专属於各个面向的情绪分析,或是专属於各个面向的分类模
型,用那个情绪分析或分类模型来给值
想知道有没有其他方法呢? 或是有我说明不清的地方也麻烦各位提出,感谢~
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 223.136.251.155 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1594658097.A.491.html
1F:→ roccqqck: Train 3个model啊07/14 00:48
可是那三个面向没有标签,请问要怎麽训练呢orz
2F:→ roccqqck: 你找找multiple choice07/14 00:50
请问是直接搜multiple choice吗?我搜出来是如何用python出选择题@@ 感谢回答!
※ 编辑: nchunerdy120 (36.231.57.7 台湾), 07/14/2020 07:00:35
3F:推 st1009: 直接rule base人工标记关键字感觉最简单,肯定跟否定关键07/14 07:23
4F:推 st1009: 可以拿别人做好的07/14 07:23
请问别人做好的rule based是从kaggle抓吗? 还是有其他管道呢? 感谢!
※ 编辑: nchunerdy120 (223.136.251.155 台湾), 07/14/2020 07:54:26
5F:→ jigfopsda: 一楼说的应该是 bert multiple choice07/14 08:58
好的,我研究看看,感谢~
6F:→ roccqqck: 自己label啊 不要指望别人帮你label 07/14 12:08
所以这种情况一般都是自己标签吗? 因为我第一次处理这种东西,然後数据量又很大(
八百万笔),所以问题比较多,感谢
7F:推 st1009: 我个人是推荐从github抓 07/14 12:36
好的我查查看,感谢~
※ 编辑: nchunerdy120 (223.136.251.155 台湾), 07/14/2020 16:30:31
8F:推 sean50301: 关键字: aspect level sentiment analysis 07/14 21:07
感谢您,我查查看~
※ 编辑: nchunerdy120 (223.136.138.95 台湾), 07/15/2020 10:20:07
9F:推 sxy67230: 可以考虑用bert接三个分类器,出来就是三个类的评分, 07/17 21:11
10F:→ sxy67230: 初期可以考虑请人手动标出一百篇三项评分,或是爬虫看 07/17 21:11
11F:→ sxy67230: 看有没有现成网站资料可以蒐集,在尝试用snorkel做资料 07/17 21:11
12F:→ sxy67230: 增强。个人认为表现应该就很不错了 07/17 21:11
13F:推 littleyuan: bert 加上一层NN负责分类就可以 07/28 07:23
14F:→ littleyuan: 花钱找labeling company帮忙 印度有 台湾好像也有些慈 07/28 07:24
15F:→ littleyuan: 善机构有 07/28 07:24