作者cutecpu (可爱中央处理器)
看板Perl
标题Re: [问题] 中文文件中标点符号的取代
时间Tue Sep 20 17:13:07 2011
Code:
#!/usr/bin/perl
open(INITXT, "< $ARGV[0]") or die "cant write";
open(OUTTXT, "> $ARGV[1]") or die "cant write";
while($line=<INITXT>){
$line =~ s/,|?|!|:|;|…/。/g;
print OUTTXT $line;
}
---------------
Sample input:
一二三四五六七,
七六五四三二一。
一二三四:
四三二一;
---------------
Sample output:
一二三四五六七。
七六五四三二一。
一二三四。
四三二一。
※ 引述《firegsh (~\cite{yaranaiga})》之铭言:
: 请教另一个问题:
: 假设我有一个编码为big5的中文文件,其中有许多标点符号,
: 如,。…!?
: 那麽我应该如何把所有标点符号统一为'。'呢?
: 目前试过s/,/。/g或是s/','/'。'/g都行不通,感谢
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 210.59.164.109
1F:推 firegsh:It works! thx 4 help:) 09/20 17:18
2F:推 firegsh:btw补充这必须在utf8编码环境下才能执行成功 09/21 13:40