作者a0954153 (卓)
看板Python
标题Re: [问题] 如何判别不同字个数
时间Wed Jul 13 12:27:50 2011
※ 引述《timTan (用口头禅区分年记)》之铭言:
: ※ 引述《a0954153 (卓)》之铭言:
: : 就是例如 有一个 test.txt , 里面是一篇文章
: : test.txt内容如下: i am a pig pig pig pig
: : 则 判别出 4
: : 有四个不同的单字
: : 我只有想到这样做,
: : import string
: : t=open('test.txt')
: : G={}
: : a=string.split(t.readline())
: : for i in range(len(a))
: : G[a[i]]=1
: : print len(G)
: : 只能拿现有的弄
: : 请问还有更好的方法吗:(
: print len(set( "i am a pig pig pig pig".split() ))
恩恩,我把它改成了这样不知道会不会好一点
t=open(r'C:\_____.txt')
G=t.readlines()
K=set()
for i in range(len(G)):
G[i]=G[i].replace(',',' ').replace('.',' ').replace('!',' ').replace('?',' ').replace('\n',' ').split()
K=K|set(G[i])
print len(K)
这样应该可以把, . ! ? \n 都给拿掉
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 111.243.151.4
1F:→ holio:那你可以试试 re.findall(r"\w+" 07/14 00:18