作者raiderho (冷颜冷雨)
看板CFantasy
标题[闲聊] 几个作者的句长
时间Wed Jan 11 17:55:32 2012
一个作家可能有好几个不同的笔名,要判断哪些笔名是否为同一个作家所有,
实务上最客观的方法就是看(同一时期)作品的句子的平均字数(句长)。根据
统计,同一个作者的作品平均句长不会有太大的变化。因此,若有两笔名的作品
平均句长相近,我们无法拒绝这样的假设:「这两个笔名其实源自同一作者」,
意即,同一本尊的不同化身的证据就多了些(仍无法认定是同一本尊);类似的,
若平均句长相差甚大(比如一个字以上),应可推论两个笔名出自不同作者。用
这个方法,可以明确推断红楼梦前八十回与後四十回确为不同的两个作者,以及
美国早期宪法的篇章(只知道是哪几个人写的,未署名)各出自谁的手。
前话少说,本篇为求简明,省略95%信心水准、虚无假设等统计用语,直接
叙述我的调查动机、方法及结果。
友人日前在批踢踢告知我说:「据说狐言和默默猴是同一人。」然而,这话
与我数年前看文印象、聊天纪录颇有差别,我印象中,这两位应该是亲戚,假如
是同一人,我先前被误导了。
於是我用微软的word做了如下简单的小调查。我用取代功能取代逗号、句号、
顿号、问号、惊叹号、冒号和分号,统计这个数量,令其为a; 删去破折号、引号、
双引号、删节号,剩下的全行字元数令为b, 因为通常一个句子的结尾多为计数a
的那七种标点符号之一,(这里定义顿号与顿号间自成一句,不这样定义结果没
差太多),因此我以b/a 来估计作品的平均句长。
我挑了《水龙吟》全书首章<芦花春晓>来估计狐言的平均句长,得a=2530,
b=20541, 因此 b/a 约为 8.1;
我挑了《照日天劫》全书首章<七禽六兽,十三衣冠>来估计默默猴的平均
句长,得a=1491, b=11995, 因此 b/a 约为 8.0;
作为对照,罗森显然是完全不同的人,(不然这个世界就太可怕了),我以
风姿第二部《我意天下》首章<登基大典>来估计罗森的平均句长,得 a=1445,
b=13295, b/a 约为 9.2...
就是这样。
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.109.160.13
1F:推 Harunobu:结论是"狐言和默默猴是同一人的可能性"颇高? 01/11 17:58
2F:→ raiderho:8.0接近8.1, 我不想做什麽结论.. 吃尾牙去,或许回来再聊 01/11 18:03
※ 编辑: raiderho 来自: 140.109.160.13 (01/11 18:10)
3F:推 pillsib2:说好不提水龙吟QQ 未庚跟袁画影啊!! 01/11 18:11
4F:→ tony332976:句长......... 01/11 18:15
5F:推 kusowan:好奇古龙会是多少XD 01/11 19:01
6F:推 crisis7287:提到水龙吟就伤心 QQ (望向书架 01/11 21:04
7F:→ raiderho:你去向默大问罗XD 01/11 23:31
8F:推 joua101:满有意思的XD 01/12 12:11