作者Darkflame (遥远的距离)
看板DataScience
标题[问题] 利用Test的data部分来帮助训练模型合理吗
时间Thu Jul 14 16:12:56 2022
问题类别:(ex:ML,SVM,RL,DL,RNN,CNN,NLP,BD,Vis,etc...)
ML
问题内容:
如题,想请问大家对於利用Test set的data部分(没用到labels)来帮助
建立or训练模型是不是合理的?
以NLP来举两种情境:
情境1:
假设今天我有一些Product review,里面的Test set包含有
sentences及labels (binary sentiment)。
如果利用Train set + Test set的所有sentences来建立TF-IDF feature,
并依照此TF-IDF feature来训练classification model
训练model时仅有用到Train set的labels(并没有用到test set的labels),
这样学术上是可接受的吗?
情境2:
同样是情境1的Product review data。假设今天我在训练model的时候,
透过某种方法在训练时增加在training set里相似於test sentences的
那些sentences的权重,并减少在training set里不相似於
test sentences的那些sentences的权重
(比如利用transformer embedding计算相似度,没利用到test labels),
这样学术上是可接受的吗?
谢谢。
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 202.161.44.2 (新加坡)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/DataScience/M.1657786378.A.846.html
※ 编辑: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:13:29
※ 编辑: Darkflame (202.161.44.2 新加坡), 07/14/2022 16:14:52
1F:推 jigfopsda: 我觉得可以看你要比的 benchmark 有没有也用到 07/14 16:53
2F:→ fallcolor: inductive/transductive 07/14 18:34
3F:→ Darkflame: 回1F 也是..不过如果是自己搜集的资料的话呢? 07/15 03:51
4F:→ jigfopsda: 看应用吧?写出一个 review 愿意买单的故事就可以 07/15 21:41
5F:推 cowbadma5566: 不行 被挑战的时候你要怎麽说明呢 07/16 02:19
6F:→ jack1218: 不行吧 07/17 02:27
7F:→ wuyiulin: 不行 07/17 21:01
8F:→ clliu168: 就是2F回的inductive/transductive learning。不是不行 07/18 22:25
9F:→ clliu168: ,只是要 transductive 跟 transductive 比。最会碰到的 07/18 22:26
10F:→ clliu168: 就是用 transductive learning 的结果跟 inductive 方法 07/18 22:27
11F:→ clliu168: 比,那当然不公平,也不能这样比。 07/18 22:27
12F:推 KindWei: 可以,如楼上所说,想想你的应用场景,情境二就是 import 07/20 19:01
13F:→ KindWei: ance sampling, 投稿要跟同类型方法比,只是要毕业就没 07/20 19:01
14F:→ KindWei: 差 07/20 19:01
15F:推 cassida: 不 行 08/14 07:59