作者windker (windker)
看板Python
标题[问题] 请问如何split中文?
时间Wed Dec 29 21:43:41 2010
想要的结果为 input="批踢踢实业坊" output=["批踢","踢踢","踢实","实业","业坊
"] (取Bigram)
如果是英文的话,因为有空格可用split()来作,但unicode变成
'\xa7\xe5\xbd\xf0\xbd\xf0\xb9\xea\xb7~\xa7{' 不知道该怎麽切。
想说如果可以切成["批","踢","踢","实","业","坊"],应该就可以得到output
我用的是python2.6
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 220.132.67.21
1F:→ uranusjr:直接 list('批踢踢实业坊') 就行了... 12/29 21:52
2F:→ uranusjr:啊不对这样会变成半个字, 想错了... 12/29 21:53
4F:→ windker:感谢回答 12/29 22:11
5F:推 grtfor:切中文尽量都转成unicode处理,用正规表示法切时要特别小心 12/30 18:02
6F:→ apua:L=list(INPUT.decode('big5')) 12/30 22:00
7F:→ apua:OUTPUT=[(L[i]+L[i+1]).encode('utf8') for i in xrange( \ 12/30 22:01
8F:→ apua:len(L)-1)] 12/30 22:01
9F:→ gasolin:for i in list(u"批踢踢实业坊"): print i 01/07 13:38