作者yeah66666 (lemonade)
看板Python
標題[問題] 初學python疑問
時間Sun Jan 13 05:20:07 2019
小弟最近剛開始學爬蟲,爬完某版的推文把它存成一個list後,想讓他只留下英文及數字,把中文刪掉。爬完推文後大概長這樣:
http://i.imgur.com/YE386iH.jpg
請問各位大神有什麼方法可以達成這個目的嗎?google了好久都找不到QQ
-----
Sent from JPTT on my HTC_U-3u.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.93.229
※ 文章網址: https://webptt.com/m.aspx?n=bbs/Python/M.1547328009.A.FF3.html
1F:推 Yshuan: python有內建確認一個字是letter或digit的函數1 01/13 08:40
2F:→ lajji: isalnum跑迴圈? 01/13 09:24
現在是一個list裡面每一個都包含中文和英文數字 跑迴圈應該沒辦法單獨把我要的抓出來吧?
※ 編輯: yeah66666 (140.113.136.220), 01/13/2019 10:11:03
3F:推 secondsee: 可考慮字串重新編碼 非asci的忽略 → list_eng = [s.en 01/13 11:39
4F:→ secondsee: code('utf8').decode('ascii','ignore') for s in list 01/13 11:40
5F:→ secondsee: _eng] 01/13 11:40
算有成功但list裡面每個我要的字旁邊都有很多空格…我還是不知道要怎麼把空格刪掉
6F:推 papple23g: 用regular expression? 01/13 12:36
7F:推 TitanEric: re讚讚 01/13 13:17
※ 編輯: yeah66666 (110.50.134.172), 01/13/2019 16:07:57
8F:推 asd2213857: 推正規運算法 01/13 16:42
重新編碼後再跑一次正規就成功了 謝謝各位!!
9F:→ asd2213857: 刪除空白可以試試strip() 01/13 17:26
※ 編輯: yeah66666 (110.50.134.172), 01/13/2019 17:45:50