百分位數檢視原始碼討論檢視歷史
百分位數 |
中文名: 百分位數 外文名: percentile;percentile value 類 型: 統計學術語 應 用: 數學領域 計算步驟: 以遞增順序排列原始數據等 定 義: 計數方式 相關概念: 百分等級 |
統計學術語,如果將一組數據從小到大排序,並計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。可表示為:一組n個觀測值按數值大小排列。如,處於p%位置的值稱第p百分位數。[1]
詳細釋義
說明一: 用99個數值或99個點,將按大小順序排列的觀測值劃分為100個等分,則這99個數值或99個點就稱為百分位數,分別以Pl,P2,…,P99代表第1個,第2個,…,第99個百分位數。第j個百分位數j=1,2…100。式中Lj,fj和CFj分別是第j個百分位數所在組的下限值、頻數和該組以前的累積頻數,Σf是觀測值的數目。 百分位通常用第幾百分位來表示,如第五百分位,它表示在所有測量數據中,測量值的累計頻次達5%。以身高為例,身高分布的第五百分位表示有5%的人的身高小於此測量值,95%的身高大於此測量值。 百分位數則是對應於百分位的實際數值。 說明二: 中位數是第50百分位數。 第25百分位數又稱第一個四分位數(First Quartile),用Q1表示;第50百分位數又稱第二個四分位數(Second Quartile),用Q2表示;第75百分位數又稱第三個四分位數(Third Quartile),用Q3表示。若求得第p百分位數為小數,可完整為整數。 分位數是用于衡量數據的位置的量度,但它所衡量的,不一定是中心位置。百分位數提供了有關各數據項如何在最小值與最大值之間分布的信息。對於無大量重複的數據,第p百分位數將它分為兩個部分。大約有p%的數據項的值比第p百分位數小;而大約有(100-p)%的數據項的值比第p百分位數大。對第p百分位數,嚴格的定義如下。 第p百分位數是這樣一個值,它使得至少有p%的數據項小於或等於這個值,且至少有(100-p)%的數據項大於或等於這個值。 高等院校的入學考試成績經常以百分位數的形式報告。比如,假設某個考生在入學考試中的語文部分的原始分數為54分。相對於參加同一考試的其他學生來說,他的成績如何並不容易知道。但是如果原始分數54分恰好對應的是第70百分位數,我們就能知道大約70%的學生的考分比他低,而約30%的學生考分比他高。
計算步驟
下面的步驟來說明如何計算第p百分位數。 第1步:以遞增順序排列原始數據(即從小到大排列)。 第2步:計算指數i=np% 第3步: l)若 i 不是整數,將 i 向上取整。大於i的毗鄰整數即為第p百分位數的位置。 2) 若i是整數,則第p百分位數是第i項與第(i+l)項數據的平均值。 除了以上方法,再介紹另外一種方法,這種方法是SPSS所用方法,也是SAS所用方法之一。 第一步:將n個變量值從小到大排列,X(j)表示此數列中第j個數。 第二步:計算指數,設(n+1)P%=j+g,j為整數部分,g為小數部分。 第三步:1)當g=0時:P百分位數=X(j); 2)當g≠0時:P百分位數=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-X(j)]。
應用
在傳統的直線回歸分析中, 常採用最小二乘法,同時要求數據的獨立性、正態性及常數方差,即給定自變量 時因變量的條件分布為正態分布,且不同時的方差相同。其目的是根據給定的自變量估計因變量的均數及其可信區間或估計因變量的容許區間或參考值範圍等。但醫學研究中,某些資料不滿足上述要求,特別當觀察值中有離群值]、強影響點時,所擬合的回歸直線因「遷就」這個些離群值、強影響點而使整體的擬合結果產生不同程度的偏離 以致影響了穩定性。 再者,當條件分布不是正態或方差不為常數時,亦不宜用最小二乘法估計回歸係數。 經過變量變換法的處理雖能解決部分問題,但由於各種變換法的規律難以掌握,對變換效果的估計往往不准。有時甚至經多種嘗試而終未見效。 不滿足上述條件時可採用直線回歸方法——百分位數回歸。