作者oo855050 (阿偉)
看板Python
標題[問題] 新手關於labelencoder的一些疑問
時間Mon Nov 4 23:55:55 2019
版上各位好
小弟近期正在學機器學習
目前想用一些dataset來做練習
而我有一個疑問想問
如果data中有文字資料,那應該需要先用
labelencoder去把文字轉數字資料
但是如果今天我訓練完了
想用testing data來做驗證
那testing data的那些文字也需要轉成數字
才能丟進去驗證
那麼testing data中文字轉為數字的時候會不會有可能和在training data轉出來的不同
(例如training data上的apple對應到0
會不會在 testing data上的 apple對應到5之類的,
如果會那麼應該如何處理才好呢?)
感謝版上大大不吝賜教
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.246.70.188 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1572882957.A.F39.html
1F:推 numpy: 所以一開始要連同 testing data 一起餵給 labelencoder 11/05 00:29
2F:推 littlebo1990: 之前做的做法是做出一個dictionary 在0位置 11/05 01:00
3F:推 littlebo1990: 放unknown. Test和training用同一個dict轉 11/05 01:04
4F:→ littlebo1990: test中沒在trainin出現過的都丟到unknown 11/05 01:05
5F:→ oo855050: numpy大感謝你的建議 11/05 11:48
6F:→ oo855050: little大 請問要如何比較兩組資料中有哪些是對方沒有出 11/05 11:49
7F:→ oo855050: 現的 並且將那些資料的位置找出來呢 11/05 11:49
8F:→ littlebo1990: 先各自轉成token (or數字), 然後把token 存成dict 11/06 01:07
9F:→ littlebo1990: 再用set取出unique的字, 再用set的method 11/06 01:12
10F:→ littlebo1990: Difference or Symmetric difference 11/06 01:12
11F:→ littlebo1990: note:數字的話要確保 字到數字 是 one to one 11/06 01:13
12F:→ oo855050: 好的感謝little大的教學 我再試試看^_^ 11/06 19:28