作者yeah66666 (lemonade)
看板Python
标题[问题] 初学python疑问
时间Sun Jan 13 05:20:07 2019
小弟最近刚开始学爬虫,爬完某版的推文把它存成一个list後,想让他只留下英文及数字,把中文删掉。爬完推文後大概长这样:
http://i.imgur.com/YE386iH.jpg
请问各位大神有什麽方法可以达成这个目的吗?google了好久都找不到QQ
-----
Sent from JPTT on my HTC_U-3u.
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 180.217.93.229
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Python/M.1547328009.A.FF3.html
1F:推 Yshuan: python有内建确认一个字是letter或digit的函数1 01/13 08:40
2F:→ lajji: isalnum跑回圈? 01/13 09:24
现在是一个list里面每一个都包含中文和英文数字 跑回圈应该没办法单独把我要的抓出来吧?
※ 编辑: yeah66666 (140.113.136.220), 01/13/2019 10:11:03
3F:推 secondsee: 可考虑字串重新编码 非asci的忽略 → list_eng = [s.en 01/13 11:39
4F:→ secondsee: code('utf8').decode('ascii','ignore') for s in list 01/13 11:40
5F:→ secondsee: _eng] 01/13 11:40
算有成功但list里面每个我要的字旁边都有很多空格…我还是不知道要怎麽把空格删掉
6F:推 papple23g: 用regular expression? 01/13 12:36
7F:推 TitanEric: re赞赞 01/13 13:17
※ 编辑: yeah66666 (110.50.134.172), 01/13/2019 16:07:57
8F:推 asd2213857: 推正规运算法 01/13 16:42
重新编码後再跑一次正规就成功了 谢谢各位!!
9F:→ asd2213857: 删除空白可以试试strip() 01/13 17:26
※ 编辑: yeah66666 (110.50.134.172), 01/13/2019 17:45:50