作者ffaarr (遠)
看板Wikipedia
標題幾個條目平均品質的數據
時間Thu Nov 17 19:21:32 2005
僅取內部璉結前20名板本作比較。同樣是到十月底的資料。
一、平均每個條目的內部璉結數:
1、德語23.4
2、希伯來語 23.0
3日語21.5(較舊的資料)
4英語 20.6
5捷克語 20.5
6中文 19.2
7法語 18.8
8西班牙語 18.4
9荷蘭語 17.2
10匈牙利語15.4
11俄語 15.0
12挪威語14.7
13芬蘭語 14.3
14義大利語 14.2
15葡萄牙語 13.4
16加泰隆尼亞語 13.2
17波蘭語 12.6
18瑞典語 11.5
19世界語 11.5
20丹麥語 10.9
值得一提的是條目僅數千條的越南語 平均內部璉結數居然有28.2。
二、每個條目的平均編輯數:
1英語23.4
2德語 23.2
3希伯來語17.6
4中文 16.8
5荷蘭語 16.7
6日語 15.8 (較舊的資料)
7法語 15.6
8西班牙語15.1
9芬蘭語 10.8
10匈牙利語10.5
11俄語 10.1
12丹麥語 9.9
13波蘭語 9.8
14世界語 8.8
15義大利語 8.6
16捷克語 8.6
17葡萄牙語 8.5
18瑞典語 8.3
19加泰隆尼亞語 8.3
20挪威語 8.1
三、平均每條目字節數
1 希伯來語 4315
2俄語 3665
3 捷克語 3555
4 德語 3108
5 日語 2895
6 英語 2729
7西班牙語 2722
8 中文 2647
9法語 2605
10匈牙利語 2582
11義大利語 2162
12芬蘭語 2149
13荷蘭語 2110
14加泰隆尼亞語 2025
15波蘭語 1933
16葡萄牙語 1849
17挪威語 1648
18世界語 1513
19丹麥語 1353
20瑞典語 1235
最多的又是越南語,達到 5192。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 211.74.7.89
1F:推 FlyinDeath:中文的字節怎麼算?又不是拼音文字... 11/18 13:22
2F:推 ffaarr:一個漢字是三個字節 11/18 15:41
3F:→ ffaarr:字節數是比蠅不公平的,我懷疑西里爾字母也是一字母3字節 11/18 15:42
4F:→ ffaarr:所以俄語、捷克語會這麼多,希伯來字母也可能很類似 11/18 15:43
5F:推 andyjy12:字節是什麼阿?是指一般說的"詞"或英文中的"字"嗎? 11/19 00:35
6F:推 ffaarr:是指一個「碼」,如英文是一個字母一碼,3個碼代表一個漢字 11/19 08:34
7F:推 andyjy12:多謝 11/19 12:26
8F:→ andyjy12:那如果統計方法是用標點符號的數量呢?該不會有語文不用 11/19 12:28
9F:→ andyjy12:標點符號吧.... 11/19 12:29
10F:推 ffaarr:大概沒辦法,因為中文用全形,西文用半形,是不同的東西 11/20 21:59
11F:→ ffaarr:電腦大概沒辦法判斷出來 11/20 22:00