作者clara830 (...)
看板Python
标题Re: [问题] 请问有关撷取资料的问题?
时间Wed Jun 18 20:19:11 2008
不好意思再问一下中文解码的问题
因为我要处理的data是从某个文字档(.txt)抓下来的
而这个.txt档里面是包括许多中文字串的资料
我在输入以下程式的时候
#-*- coding:big5 -*-
f=open('XXX.txt','rU').read()
print f
这是没有问题的 其中的中文字串都可以完整show出来
但是当我要对其中f(文字档)做一些处理的时候(例如tokenize或是撷取资料出来)
就会出现unicode的问题
想请问一下为什麽都只能在print的时候中文字串可以显示
但是写其他程式码处理的时候就不行呢@@
请问有没有什麽解决办法呢 谢谢!!!
※ 引述《gasolin (小g)》之铭言:
: ※ 引述《clara830 (...)》之铭言:
: : 不好意思再请教一个进阶的问题....
: : 假设我现在有一个list是这样:
: : text = ['ABCD:from XXX X 12(V) XXX', 'EF:XXX XX', 'GH: from XXX XX 345(V) XX']
: : 比如说我现在想要让程式判断 :
: : 如果里面有包含'from'的话
: : 就把其中冒号前面的字串找出来 以及找出其中(V)前面的字串
: : 以这个例子来说的话 也就是希望撷取出 [(ABCD, 12), (GH, 345)]
: : 好像有点复杂.....不知道这有办法写出来吗?
: : 现在好像还想不到怎麽解决
: 跟前面的回答基本一样
: store = []
: text = [....]
: for i in text:
: if 'from' in i:
: seg = i.split(':')
: first_param = seg[0]
: second_param = seg[1].split('(V)')[0]
: store.append((first_param, second_param))
: print store
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.122.210.35
※ 编辑: clara830 来自: 140.122.210.35 (06/18 22:23)
1F:→ liangjr:不晓得你是如何做处理的 06/19 03:07
2F:→ liangjr:yungyuc大的152篇有很多encoding的观念可以参考 06/19 03:08
3F:→ clara830:谢谢~~不过我现在那些字串都是在.TXT档里面 06/19 10:31
4F:→ clara830:跟前面讲的好像不太一样..... 06/19 10:32
5F:→ clara830:难道我要把.txt里面的全部文字全部用复制贴上过去吗? 06/19 10:34
6F:→ clara830:想请问有没有办法直接对.TXT档案做处理的.....@@ 06/19 10:35
7F:推 wawawa:你文字档是何种编码?程式码贴个片段出来看看吧 06/19 17:00
8F:→ clara830:已想到解决方式 感谢: ) 06/19 20:36