作者minksable ()
看板Database
標題[問題] 格式不太正確的csv檔
時間Wed Sep 2 00:26:47 2009
在csv檔中 字串性質的欄位應該會加上""
e.g. "string", number, date
不然字串裡如果有「,」要怎麼辦? (假設這裡是以,為欄位分隔)
結果我手上拿到一堆沒有用雙引號區隔的檔案
以致於我沒有辦法匯入這些檔案
我試過寫程式判斷什麼時候是逗號 什麼時候是分隔
但我想需要很不錯的NLP技術才行......
我想請問一下遇到這樣的問題要怎麼解決?
原則上是不可能請人家重新匯出給我
因為公家單位跑個文應該要一個月吧
而且我很擔心他們不懂我的問題所在
(如果懂的話 當初就不會給格式不符的檔案了吧....)
ps. 因為字串性質的欄位中算是一些口語的紀錄
所以用到逗號的機率頗高
而資料至少上萬筆 我不想一筆一筆幫它們加雙引號 >"<
如果能救我 我會很感謝的 <(_ _)>
--
「
如果我就這麼鬆開手,你會不會永遠記得我?
」
《妖靈皇子》司徒紅
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.119.150.244
1F:推 maplenote:如果假設分隔不是用,呢@@?! 既然,不好分 為什麼不換個?? 09/02 09:32
2F:→ minksable:可是檔案已經用,分好給我了..... 09/02 09:42
3F:推 daniel1205:可以試試用 csved 這個免費的小工具!! 09/02 11:46
4F:推 daniel1205:1.讀CSV; 2.用Filter找出有問題資料; 3.做Col.Join 09/02 11:57
5F:→ Antzzz:原則上這樣子的資料我都叫人重匯,根本不能用 09/02 12:19