作者huggie (huggie)
看板Python
标题[问题] 如何把字母转换成 ascii values
时间Mon May 5 19:43:41 2008
我有一些 utf-8 资料,我想要知道某个字元是否是英文字母 (而非中文字),
要如何做最好?我想过要转成 ascii code 再比大小,结果不知道怎麽转。
现在我的作法就是去看现在这个字元是否是 string.ascii_letters 的子字串。
这样会不会太笨了点...
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.129.160.62
1F:推 Lucemia:用regular expression ? 05/05 20:28
2F:推 ykjiang:如果懒得爬文的话,等我 blog 好後再通知你去看 :p 05/05 21:38
3F:推 weijr:ord 或直接比 05/05 22:23
4F:推 ykjiang:刚刚试了一下,的确直接比就可以了 :) 05/05 23:24
5F:→ ykjiang:另外英文字母的unicode刚好跟Ascii是一样的,虽byte数不同 05/05 23:26
6F:→ huggie:ntf-8 跟 ascii 在 ascii 部份 byte 数应该是一样的吧 05/08 09:18
7F:→ huggie:我爬文爬不到.. 现在这样比要比很多字母.效率应该不高 05/08 09:19
8F:→ huggie:转成unsigned-int比大小我以为会比较快.. 05/08 09:20
9F:推 ykjiang:Python 的 Unicode 字元应该不是用 utf8 来存... 05/12 20:56
10F:→ huggie:我读档的档案是 utf-8 所以..有人知道怎麽转了没有 05/13 08:15
11F:推 yungyuc:string.isalpha() 05/13 08:59
12F:→ yungyuc:libref 就有解答了 05/13 09:00
13F:→ yungyuc:如果问题是在不知道怎麽转 UTF-8 -> Unicode 05/13 09:00
14F:→ yungyuc:则洽 string.decode/string.encode 05/13 09:01
15F:→ huggie:不是..问题是想要知道是否是英文字或者是中文字 05/13 09:05
16F:→ huggie:不需要转 05/13 09:05
17F:→ huggie:isalpha()可以区分数字还是中文字吗? 05/13 09:10
18F:→ huggie:islapha() 中文字如果是 false 就跟数字分不开 05/13 09:12
19F:→ huggie:如果是 True 就跟英文字分不开.. 05/13 09:12
20F:→ huggie:我需要把英文逗点/句号给改成中文逗点/句号,因此需要判断 05/13 09:13
21F:→ huggie:前面一个字元是中文字还是英文字。 05/13 09:13
22F:→ huggie:喔我找到二楼讲的ord了..囧..好像就是我要的 05/13 09:22
23F:→ huggie:ord() 05/13 09:22
25F:→ huggie:Unicode code point of the character 是什麽意思? 05/13 09:23
26F:推 ykjiang:前面有 unicode 讨论串,请爬文... 05/13 23:53
27F:推 ykjiang:把 utf-8 转成 unicode 後,再来处理,会简单很多 05/14 00:17
28F:→ godfat:为什麽 utf-8 不是 unicode??? 05/14 00:51
29F:推 yungyuc:视 unicode 的定义而定;utf-8 是一种外码 05/14 03:23
30F:→ yungyuc:不过 Python 的 unicode 物件存 code point,不用外码 05/14 03:24
31F:→ yungyuc:如果你说 utf-8 是否为 unicode 的一种编码?是 05/14 03:25
32F:→ yungyuc:但对 Python unicode 物件来说,并不是这麽回事 05/14 03:25