齊普夫定律
名詞解釋
齊普夫定律是美國語言學家G.K.齊普夫(George Kingsley Zipf)於本世紀40年代提出的詞頻分布定律。它可以表述為:如果把一篇較長文章中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在後的遞減順序排列,並用自然數個這些詞編上的等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,......,頻次最小的詞等級為D,。若用f表示頻次,r 表示序號,則有fr=C(C為常數)。人們稱該式為齊普夫定律。
齊普夫定律是描述一系列實際現象的特點非常到位的經驗定律之一。它認為,如果我們按照大小或者流行程度給某個大集合中的各項進行排序,集合中第二項的比重大約是第一項的一半,而第三項的比重大約是第一項的三分之一,以此類推。換句話來說,一般來講,排在第k位的項目其比重為第一項的1/k。
齊普夫定律還從定量角度描述了目前流行的一個主題: 長尾巴定律(The Long Tail)。以一個集合中按流行程度排名的物品(如亞馬遜網站上銷售的圖書)為例。表示流行程度的圖表會向下傾斜,位於左上角的是幾十本最流行的圖書。該圖會向右下角逐漸下降,那條長尾巴會列出每年銷量只有一兩本的幾十萬種圖書。換成英文即齊普夫定律最初應用的領域,這條長尾巴就是你很少會遇到的幾十萬個單詞,譬如floriferous或者refulgent。
把流行程度作為大致衡量價值的標準,齊普夫定律隨後就會得出每一個物品的價值。也就是說,假設有100萬個物品,那麼最流行的100個物品將貢獻總價值的三分之一,其次的10000個物品將貢獻另外的三分之一; 剩餘的98.99萬個將貢獻剩下的三分之一。有n個物品的集合其價值與log(n)成正比。
齊普夫定律的應用範圍
1.詞表編制
2.利用齊普夫定律,解決詞彙控制,詞表規模確定,選詞標準等問題。
3.文獻標引控制
齊普夫定律主要應用於統計標引法。確定有效詞的詞頻值。從而可通過計算機確定有效詞。
4.情報檢索的文獻組織。
齊普夫定律的運用實例
電子郵件列表成員的相對價值。
按照齊普夫定律,這種網絡的成員可以像齊普夫定律排列單詞那樣來排序——按照你收件箱當中電子郵件的數量。每個人所發的電子郵件都會給你收件箱的總「價值」貢獻1/k,這裡的k是指每個人的排名。
郵件量排名第一位的那個人因而獲得被設為1/1即1的值(這個人就相當於前面那個例子中的單詞the)。排在第二位的那個人將貢獻一半的值,即1/2。而按照齊普夫定律,排在第k位的那個人將為你為這個郵件網絡賦予的總價值添加大約1/k。
這個總價值就是網絡所有其他成員的遞減的1/k值之和。所以如果你的網絡有n個成員,這個值就與1 + 1/2 + 1/3 +… + 1/(n-1)成正比,這接近log(n)。說得更準確些,這差不多等於log(n)與恆定值相加之和。當然,n-1個其他成員可以從網絡得到類似的值,所以所有n的值以n log(n)增加。
參考文獻
- ↑ 中國人中國字|看中國人專屬的浪漫和智慧!,搜狐,2022-10-12
- ↑ 了不起的中華文明:漢字發展史上的三次重大危機,搜狐,2020-09-18