常態分布查看源代码讨论查看历史
常態分布(normal distribution)又名高斯分布(Gaussian distribution),是一個非常常見的連續機率分布[1] 。常態分布在统计学上十分重要,經常用在自然和社会科学來代表一個不明的隨機變量。
若隨機變量<math>X</math>服從一個位置參數為mu、尺度參數為sigma的常態分布,記為:
- X \sim N(\mu,\sigma^2)
則其機率密度函數為 f(x) = \frac1{\sigma\sqrt{2\pi}}\; e^{-\frac{\left(x-\mu\right)^2}{2\sigma^2} }
常態分布的數學期望值或期望值<math>\mu</math>等於位置參數,決定了分布的位置;其方差<math>\sigma^2</math>的開平方或標準差<math>\sigma</math>等於尺度參數,決定了分布的幅度。
常態分布的機率密度函數曲線呈鐘形,因此人們又經常稱之為鐘形曲線(类似于寺庙里的大钟,因此得名)。我們通常所說的標準常態分布是位置參數mu = 0,尺度參數sigma^2 = 1的常態分布。
概要
常態分布是自然科學與行為科學中的定量現象的一個方便模型。各種各樣的心理學測試分數和物理現象比如光子計數都被發現近似地服從常態分布。儘管這些現象的根本原因經常是未知的,理論上可以證明如果把許多小作用加起來看做一個變量,那麼這個變量服從常態分布(在R.N.Bracewell的Fourier transform and its application中可以找到一種簡單的證明)。常態分布出現在許多區域統計:例如,採樣分布均值是近似地常態的,即使被採樣的樣本的原始群體分布並不服從常態分布。另外,常態分布信息熵在所有的已知均值及方差的分布中最大,這使得它作為一種均值以及方差已知的分布的自然選擇。常態分布是在統計以及許多統計測試中最廣泛應用的一類分布。在概率論,常態分布是幾種連續以及離散分布的極限分布。
歷史
常態分布最早是棣莫弗在1718年著作的書籍的(Doctrine of Change),及1734年發表的一篇關於二項分布文章中提出的,當二項隨機變數的位置參數n很大及形狀參數p為1/2時,則所推導出二項分布的近似分布函數就是常態分布。拉普拉斯在1812年发表的《分析概率论》(Theorie Analytique des Probabilites)中對棣莫佛的結論作了擴展到二項分布的位置參數為n及形狀參數為1>p>0時。現在这一结论通常被稱為棣莫佛-拉普拉斯定理。
拉普拉斯在誤差分析試驗中使用了常態分布。勒讓德於1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,並通過假設誤差服從常態分布給出了嚴格的證明。
「鐘形曲線」這個名字可以追溯到Jouffret他在1872年首次提出這個術語「鐘形曲面」,用來指代二元常態分布(bivariate normal)。正态分布這個名字還被Charles S. Peirce、Francis Galton、Wilhelm Lexis在1875分别獨立地使用。這個術語是不幸的,因為它反映和鼓勵了一種謬誤,即很多概率分布都是常態的。(請參考下面的「實例」)
這個分布被稱為「常態」或者「高斯」正好是Stigler名字由來法則的一個例子,這個法則說「沒有科學發現是以它最初的發現者命名的」。
正态分布的定義
有幾種不同的方法用來說明一個隨機變量。最直觀的方法是概率密度函數,這種方法能夠表示隨機變量每個取值有多大的可能性。累積分布函數是一種概率上更加清楚的方法,請看下邊的例子。還有一些其他的等價方法,例如cumulant、特徵函數、動差生成函數以及cumulant-生成函數。這些方法中有一些對於理論工作非常有用,但是不夠直觀。請參考關於概率分布的討論。
概率密度函數
常態分布的概率密度函數均值為mu 方差為sigma^2 (或標準差sigma)是高斯函數的一個實例:
- f(x;\mu,\sigma)
frac{1}{\sigma\sqrt{2\pi}} \, \exp \left( -\frac{(x- \mu)^2}{2\sigma^2} \right)。
如果一個隨機變量X服從這個分布,我們寫作 X ~ N(\mu, \sigma^2). 如果mu = 0並且sigma = 1,這個分布被稱為標準正态分布,這個分布能夠簡化為
- f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right)。
正态分布中一些值得注意的量:
- 密度函數關於平均值對稱
- 平均值與它的眾數(statistical mode)以及中位數(median)同一數值。
- 函數曲線下68.268949%的面積在平均數左右的一個標準差範圍內。
- 95.449974%的面積在平均數左右兩個標準差2 \sigma的範圍內。
- 99.730020%的面積在平均數左右三個標準差3 \sigma的範圍內。
- 99.993666%的面積在平均數左右四個標準差4 \sigma的範圍內。
- 函數曲線的拐點(inflection point)為離平均數一個標準差距離的位置。
性質
常態分布的一些性質:
- 如果X \sim N(\mu, \sigma^2) 且a與b是實數,那麼a X + b \sim N(a \mu + b, (a \sigma)^2).
- 如果X \sim N(\mu_X, \sigma^2_X)與Y \sim N(\mu_Y, \sigma^2_Y)是統計獨立的常態隨機變量,那麼:
- 它們的和也滿足常態分布U = X + Y \sim N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) (正态分布随机变量总和|sum of normally distributed random variables|proof).
- 它們的差也滿足常態分布V = X - Y \sim N(\mu_X - \mu_Y, \sigma^2_X + \sigma^2_Y).
- U與V兩者是相互獨立的。(要求X与Y的方差相等)
- 如果X \sim N(0, \sigma^2_X)和Y \sim N(0, \sigma^2_Y)是獨立常態隨機變量,那麼:
- 它們的積X Y服從機率密度函數為p的分布
- p(z) = \frac{1}{\pi\,\sigma_X\,\sigma_Y} \; K_0\left(\frac{|z|}{\sigma_X\,\sigma_Y}\right),其中K_0是修正貝塞爾函數(modified Bessel function)
- 它們的比符合柯西分布,滿足X/Y \sim \mathrm{Cauchy}(0, \sigma_X/\sigma_Y).
- 它們的積X Y服從機率密度函數為p的分布
- 如果X_1, \cdots, X_n為獨立標準常態隨機變量,那麼X_1^2 + \cdots + X_n^2服從自由度為n的卡方分布。
中心極限定理
常態分布有一個非常重要的性質:在特定條件下,大量統計獨立的隨機變量的平均值的分布趨於正态分布,這就是中心極限定理。中心極限定理的重要意義在於,根據這一定理的結論,其他概率分布可以用正态分布作為近似。
- 參數為n和p的二項分布,在n相當大而且p接近0.5時近似於正态分布。
近似正态分布平均數為mu = n p且方差為sigma^2 = n p (1 - p).
- 一泊松分布帶有參數lambda當取樣樣本數很大時將近似正态分布lambda.
近似正态分布平均數為mu = \lambda且方差為sigma^2 = \lambda.
這些近似值是否完全充分正確取決於使用者的使用需求。
無限可分性
正态分布是無限可分的概率分布。
穩定性
正态分布是嚴格穩定的概率分布。
標準偏差
在實際應用上,常考慮一組數據具有近似於常態分布的機率分布。若其假設正確,則約68.3%數值分布在距離平均值有1個標準差之內的範圍,約95.4%數值分布在距離平均值有2個標準差之內的範圍,以及約99.7%數值分布在距離平均值有3個標準差之內的範圍。稱為「68-95-99.7法則」或「經驗法則」。