求真百科歡迎當事人提供第一手真實資料,洗刷冤屈,終結網路霸凌。

齊普夫定律檢視原始碼討論檢視歷史

事實揭露 揭密真相
前往: 導覽搜尋

來自 搜狐網 的圖片

齊普夫定律是個文化術語。

漢字,中國古人智慧的結晶[1]。千百年間,它經歷了「甲金篆隸草楷行」的發展[2]。從記錄的工具到藝術的載體,它的身上,傾注了無數先人的心血。

名詞解釋

齊普夫定律是美國語言學家G.K.齊普夫(George Kingsley Zipf)於本世紀40年代提出的詞頻分布定律。它可以表述為:如果把一篇較長文章中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在後的遞減順序排列,並用自然數個這些詞編上的等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,......,頻次最小的詞等級為D,。若用f表示頻次,r 表示序號,則有fr=C(C為常數)。人們稱該式為齊普夫定律。

齊普夫定律是描述一系列實際現象的特點非常到位的經驗定律之一。它認為,如果我們按照大小或者流行程度給某個大集合中的各項進行排序,集合中第二項的比重大約是第一項的一半,而第三項的比重大約是第一項的三分之一,以此類推。換句話來說,一般來講,排在第k位的項目其比重為第一項的1/k。

齊普夫定律還從定量角度描述了目前流行的一個主題: 長尾巴定律(The Long Tail)。以一個集合中按流行程度排名的物品(如亞馬遜網站上銷售的圖書)為例。表示流行程度的圖表會向下傾斜,位於左上角的是幾十本最流行的圖書。該圖會向右下角逐漸下降,那條長尾巴會列出每年銷量只有一兩本的幾十萬種圖書。換成英文即齊普夫定律最初應用的領域,這條長尾巴就是你很少會遇到的幾十萬個單詞,譬如floriferous或者refulgent。

把流行程度作為大致衡量價值的標準,齊普夫定律隨後就會得出每一個物品的價值。也就是說,假設有100萬個物品,那麼最流行的100個物品將貢獻總價值的三分之一,其次的10000個物品將貢獻另外的三分之一; 剩餘的98.99萬個將貢獻剩下的三分之一。有n個物品的集合其價值與log(n)成正比。

齊普夫定律的應用範圍

1.詞表編制

2.利用齊普夫定律,解決詞彙控制,詞表規模確定,選詞標準等問題。

3.文獻標引控制

齊普夫定律主要應用於統計標引法。確定有效詞的詞頻值。從而可通過計算機確定有效詞。

4.情報檢索的文獻組織。

齊普夫定律的運用實例

電子郵件列表成員的相對價值。

按照齊普夫定律,這種網絡的成員可以像齊普夫定律排列單詞那樣來排序——按照你收件箱當中電子郵件的數量。每個人所發的電子郵件都會給你收件箱的總「價值」貢獻1/k,這裡的k是指每個人的排名。

郵件量排名第一位的那個人因而獲得被設為1/1即1的值(這個人就相當於前面那個例子中的單詞the)。排在第二位的那個人將貢獻一半的值,即1/2。而按照齊普夫定律,排在第k位的那個人將為你為這個郵件網絡賦予的總價值添加大約1/k。

這個總價值就是網絡所有其他成員的遞減的1/k值之和。所以如果你的網絡有n個成員,這個值就與1 + 1/2 + 1/3 +… + 1/(n-1)成正比,這接近log(n)。說得更準確些,這差不多等於log(n)與恆定值相加之和。當然,n-1個其他成員可以從網絡得到類似的值,所以所有n的值以n log(n)增加。

參考文獻