Zipf's law分析
简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。
I Rank (r) |
II Frequency (f) |
III Product of I and II (r × f = C) |
IV Theoretical Length of Ulysses (C × 10) |
10 |
2,653 |
26,530 |
265,300 |
20 |
1,311 |
26,220 |
262,200 |
30 |
926 |
27,780 |
277,800 |
40 |
717 |
28,680 |
286,800 |
50 |
556 |
26,500 |
278,000 |
100 |
265 |
26,500 |
265,000 |
200 |
133 |
26,600 |
266,000 |
300 |
84 |
25,200 |
252,000 |
400 |
62 |
24,800 |
248,000 |
500 |
50 |
25,000 |
250,000 |
1,000 |
26 |
26,000 |
260,000 |
2,000 |
12 |
24,000 |
240,000 |
3,000 |
8 |
24,000 |
240,000 |
4,000 |
6 |
24,000 |
240,000 |
5,000 |
5 |
25,000 |
250,000 |
10,000 |
2 |
20,000 |
200,000 |
20,000 |
1 |
20,000 |
200,000 |
29,899 |
1 |
29,899 |
298,990 |
r × f = C这个公式还说明,一个词的出现次数跟它的等级序号成反比。出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。这原本没有什么特别的:序号就是根据出现次数排的。但它们的乘积是常数这一点,却使得分别以词的序号和出现次数为轴线的双对数表(doubly logarithmic chart)呈现极大的规律性——它几乎是一条45度的直线。