1,399
次編輯
變更
资讯理论
,创建页面,内容为“{{expert|subject=数学|subject2=计算机科学|subject3=电子学}} {{noteTA |T = zh-cn:信息论; zh-tw:资讯理论; |G1 = Communication }} {{电脑和信息技…”
{{expert|subject=数学|subject2=计算机科学|subject3=电子学}}
{{noteTA
|T = zh-cn:信息论; zh-tw:资讯理论;
|G1 = Communication
}}
{{电脑和信息技术}}
'''信息论'''({{lang-en|'''information theory'''}})是[[应用数学]]、[[电机工程学]]和[[计算机科学]]的一个分支,涉及[[信息]]的量化、存储和通信等。信息论是由[[克劳德·香农]]发展,用来找出[[信号处理]]与[[通信]]操作的基本限制,如[[数据压缩]]、可靠的存储和数据[[电信|传输]]等。自创立以来,它已拓展应用到许多其他领域,包括统计推断、[[自然语言处理]]、[[密码学]]、[[神经生物学]]<ref>{{cite book|author=F. Rieke, D. Warland, R Ruyter van Steveninck, W Bialek|title=Spikes: Exploring the Neural Code|publisher=The MIT press|year=1997|isbn=978-0262681087}}</ref>、进化论<ref>cf. Huelsenbeck, J. P., F. Ronquist, R. Nielsen and J. P. Bollback (2001) Bayesian inference of phylogeny and its impact on evolutionary biology, ''Science'' '''294''':2310-2314</ref>和分子编码的功能<ref>Rando Allikmets, Wyeth W. Wasserman, Amy Hutchinson, Philip Smallwood, Jeremy Nathans, Peter K. Rogan, [http://alum.mit.edu/www/toms/ Thomas D. Schneider] {{webarchive|url=https://web.archive.org/web/20080821124201/http://alum.mit.edu/www/toms |date=2008-08-21 }}, Michael Dean (1998) Organization of the ABCR gene: analysis of promoter and splice junction sequences, ''Gene'' '''215''':1, 111-122</ref>、[[生态学]]的模式选择<ref>Burnham, K. P. and Anderson D. R. (2002) ''Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition'' (Springer Science, New York) ISBN 978-0-387-95364-9.</ref>、热物理<ref>Jaynes, E. T. (1957) [http://bayes.wustl.edu/ Information Theory and Statistical Mechanics], ''Phys. Rev.'' '''106''':620</ref>、[[量子计算]]、[[语言学]]、剽窃检测<ref>Charles H. Bennett, Ming Li, and Bin Ma (2003) [http://sciamdigital.com/index.cfm?fa=Products.ViewIssuePreview&ARTICLEID_CHAR=08B64096-0772-4904-9D48227D5C9FAC75 Chain Letters and Evolutionary Histories], ''Scientific American'' '''288''':6, 76-81</ref>、[[模式识别]]、异常检测和其他形式的[[数据分析]]。<ref>
{{Cite web
|author = David R. Anderson
|title = Some background on why people in the empirical sciences may want to better understand the information-theoretic methods
|date = November 1, 2003
|url = http://aicanderson2.home.comcast.net/~aicanderson2/home.pdf
|format = pdf
|accessdate = 2010-06-23
|deadurl = yes
|archiveurl = https://web.archive.org/web/20110723045720/http://aicanderson2.home.comcast.net/~aicanderson2/home.pdf
|archivedate = 2011年7月23日
}}
</ref>
[[熵 (信息论)|熵]]是信息的一个关键度量,通常用一条消息中需要存储或传输一个{{le|符号率|Symbol rate|符号}}的平均比特数来表示。熵衡量了预测[[随机变量]]的值时涉及到的不确定度的量。例如,指定[[掷硬币]]的结果(两个等可能的结果)比指定掷股子的结果(六个等可能的结果)所提供的信息量更少(熵更少)。
信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由[[有噪信道编码定理|信道编码定理]]、[[信源-信道隔离定理]]相互联系。
信息论的基本内容的应用包括[[无损数据压缩]](如[[ZIP格式|ZIP文件]])、[[有损数据压缩]](如[[MP3]]和[[JPEG]])、[[信道容量|信道编码]](如[[DSL|数字用户线路(DSL)]])。这个领域处在[[数学]]、[[统计学]]、[[计算机科学]]、[[物理学]]、[[神经科学]]和[[电机工程学]]的交叉点上。信息论对[[航海家计画|航海家]]深空探测任务的成败,光盘的发明,手机的可行性,[[互联网]]的发展,[[语言学]]和人类感知的研究,对[[黑洞]]的了解,和许多其他领域都影响深远。信息论的重要子领域有[[数据压缩|信源编码]]、[[前向错误更正|信道编码]]、[[柯氏复杂性|算法复杂性理论]]、[[算法信息论]]、[[资讯理论安全性]]和信息度量。
== 简述 ==
信息论的主要内容可以类比人类最广泛的交流手段——语言来阐述。
一种简洁的语言(以[[英语]]为例)通常有两个重要特点:
首先,最常用的词(比如"a"、"the"、"I")应该比不太常用的词(比如"benefit"、"generation"、"mediocre")要短一些;其次,如果句子的某一部分被漏听或者由于[[噪声]]干扰(比如一辆车辆疾驰而过)而被误听,听者应该仍然可以抓住句子的大概意思。而如果把电子[[通信系统]]比作一种语言的话,这种[[健壮性 (计算机科学)|健壮性]](robustness)是不可或缺的。将健壮性引入通信是通过[[信道编码]]完成的。[[信源编码]]和信道编码是信息论的基本研究课题。
注意这些内容同消息的重要性之间是毫不相干的。例如,像“多谢;常来”这样的客套话与像“救命”这样的紧急请求在说起来、或者写起来所花的时间是差不多的,然而明显后者更重要,也更有实在意义。信息论却不考虑一段消息的重要性或内在意义,因为这些是数据的质量的问题而不是数据量(数据的长度)和[[可读性]]方面上的问题,后者只是由[[概率]]这一因素单独决定的。
== 信息的度量 ==
===信息熵===
美国数学家[[克劳德·香农]]被称为“信息论之父”。人们通常将香农于1948年10月发表于《{{tsl|en|Bell System Technical Journal|贝尔系统技术学报}}》上的论文《{{tsl|en|A Mathematical Theory of Communication|通信的数学理论}}》作为现代信息论研究的开端。这一文章部分基于[[哈里·奈奎斯特]]和{{tsl|en|Ralph Hartley|拉尔夫·哈特利}}于1920年代先后发表的研究成果。在该文中,香农给出了[[信息熵]]的定义:
:<math>H(X)=E[\log_2(X)] =\sum_{x\in\mathcal{X}}^{}p(x)\log_2(\frac{1}{p(x)})</math>
其中<math>\mathcal{X}</math>为有限个事件x的集合,<math>X</math>是定义在<math>\mathcal{X}</math>上的随机变量。信息熵是随机事件不确定性的度量。
信息熵与物理学中的[[热力学熵]]有着紧密的联系:
:<math>S(X)=k_BH(X) </math>
其中S(X)为热力学熵,H(X)为信息熵,<math>k_B</math>为[[波兹曼常数]]。
事实上这个关系也就是广义的[[波兹曼熵公式]],或是在[[正则系综]]内的热力学熵表示式。如此可知,[[玻尔兹曼]]与[[吉布斯]]在统计物理学中对熵的工作,启发了信息论的熵。
信息熵是[[信源编码定理]]中,压缩率的下限。当我们用少于信息熵的资讯量做编码,那麽我们一定有资讯的损失。夏农在[[大数定律]]和{{tsl|en|Asymptotic equipartition property|渐进均分性}}的基础上定义了{{tsl|en|Typical set|典型集}}和典型-{序列}-。典型集是典型-{序列}-的集合。因为一个独立同分布的<math>X</math>-{序列}-属于由<math>X</math>定义的典型集的机率大约为1,所以只需要将属于典型集的无记忆<math>X</math>信源-{序列}-编为唯一可译码,其他-{序列}-随意编码,就可以达到几乎无损失的压缩。
====例子====
若S为一个三个面的股子,
P(面一)=1/5,
P(面二)=2/5,
P(面三)=2/5
<math> H(X)=\frac{1}{5}\log_2 (5)+\frac{2}{5}\log_2\left(\frac{5}{2}\right)+\frac{2}{5}\log_2\left(\frac{5}{2}\right) </math>
===联合熵(Joint Entropy)与条件熵(Conditional Entropy)===
[[联合熵]]由熵的定义出发,由[[联合分布]],我们有:
:<math>H(X,Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(x,y)})</math>
[[条件熵]],顾名思义,从条件机率p(y|x)做定义:
:<math>H(Y|X)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(y|x)})</math>
因为由[[贝氏定理]],我们有<math>p(x,y)=p(y|x)p(x)</math>,带入联合熵的定义,可以分离出条件熵,于是得到联合熵与条件熵的关系式:
:<math>H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X)</math>
====链式法则====
我们可以再对联合熵与条件熵的关系做推广,假设现在有n个随机变量<math>X_i, i=1,2,...,n</math>,重複分离出条件熵,我们有:
:<math>\begin{align} H(X_1,X_2,...,X_n)&=H(X_1)+H(X_2,...,X_n|X_1)=H(X_1)+H(X_2|X_1)+H(X_3,...,X_n|X_1,X_2)\\
&=H(X_1)+\sum_{i=2}^{n}H(X_i|X_1,...,X_{i-1})\end{align}</math>
他的意义显而易见,假如我们接收一段数列<math>\{X_1,X_2,...,X_n\}</math>,且先收到<math>X_1</math>,再来是<math>X_2</math>,依此类推。那麽收到<math>X_1</math>后总讯息量为<math>H(X_1)</math>,收到<math>X_2</math>后总讯息量为<math>H(X_1)+H(X_2|X_1)</math>,直到收到<math>X_n</math>后我们的总讯息量应为<math>H(X_1,...,X_n)</math>,于是这个接收过程中就给出了链式法则。
===互信息===
[[互信息]](Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件<math>X</math>和<math>Y</math>的互信息定义为:
:<math>I(X;Y) = H(X)-H(X|Y)=H(X) + H(Y) - H(X, Y)=H(Y)-H(Y|X)=I(Y;X)</math>
其意义为,若我们想知道<math>Y</math>包含多少<math>X</math>的资讯,在尚未得到<math>Y</math>之前,我们的不确定性是<math>H(X)</math>,得到Y后,不确定性是<math>H(X|Y)</math>。所以一旦得到<math>Y</math>后,我们消除了<math>H(X)-H(X|Y)</math>的不确定量,这就是Y对X的资讯量。
如果<math>X,Y</math>互为独立,则<math>H(X,Y)=H(X)+H(Y)</math>,于是<math>I(X;Y)=0</math>。
又因为<math>H(X|Y)\leq H(X)</math>,所以
:<math>I(X;Y)\leq \min(H(X),H(Y))</math>,其中等号成立条件为Y=g(X),g是一个[[双射|-{zh:双射;zh-hans:双射;zh-hant:对射}-]]函数
互信息与{{tsl|en|G-test|G检验}}以及[[皮尔森卡方检定|皮尔森卡方-{A|zh-hans:检验;zh-hant:检定;}-]]有着密切的联系。
== 应用 ==
信息论被广泛应用在:
*[[编码理论]]
*[[密码学]]
*[[数据传输]]
*[[数据压缩]]
*[[检测理论]]
*[[估计理论]]
*[[数据加密]]
== 参考文献 ==
{{Reflist}}
== 外部链接 ==
* [http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6773024 香农论文:通信的数学理论]
{{-}}
{{数学主要领域}}
{{Computer Science}}
{{Authority control}}
[[Category:通信]]
[[Category:控制论]]
[[Category:信息论| ]]
[[Category:形式科学]]
[[Category:信息时代]]
{{noteTA
|T = zh-cn:信息论; zh-tw:资讯理论;
|G1 = Communication
}}
{{电脑和信息技术}}
'''信息论'''({{lang-en|'''information theory'''}})是[[应用数学]]、[[电机工程学]]和[[计算机科学]]的一个分支,涉及[[信息]]的量化、存储和通信等。信息论是由[[克劳德·香农]]发展,用来找出[[信号处理]]与[[通信]]操作的基本限制,如[[数据压缩]]、可靠的存储和数据[[电信|传输]]等。自创立以来,它已拓展应用到许多其他领域,包括统计推断、[[自然语言处理]]、[[密码学]]、[[神经生物学]]<ref>{{cite book|author=F. Rieke, D. Warland, R Ruyter van Steveninck, W Bialek|title=Spikes: Exploring the Neural Code|publisher=The MIT press|year=1997|isbn=978-0262681087}}</ref>、进化论<ref>cf. Huelsenbeck, J. P., F. Ronquist, R. Nielsen and J. P. Bollback (2001) Bayesian inference of phylogeny and its impact on evolutionary biology, ''Science'' '''294''':2310-2314</ref>和分子编码的功能<ref>Rando Allikmets, Wyeth W. Wasserman, Amy Hutchinson, Philip Smallwood, Jeremy Nathans, Peter K. Rogan, [http://alum.mit.edu/www/toms/ Thomas D. Schneider] {{webarchive|url=https://web.archive.org/web/20080821124201/http://alum.mit.edu/www/toms |date=2008-08-21 }}, Michael Dean (1998) Organization of the ABCR gene: analysis of promoter and splice junction sequences, ''Gene'' '''215''':1, 111-122</ref>、[[生态学]]的模式选择<ref>Burnham, K. P. and Anderson D. R. (2002) ''Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition'' (Springer Science, New York) ISBN 978-0-387-95364-9.</ref>、热物理<ref>Jaynes, E. T. (1957) [http://bayes.wustl.edu/ Information Theory and Statistical Mechanics], ''Phys. Rev.'' '''106''':620</ref>、[[量子计算]]、[[语言学]]、剽窃检测<ref>Charles H. Bennett, Ming Li, and Bin Ma (2003) [http://sciamdigital.com/index.cfm?fa=Products.ViewIssuePreview&ARTICLEID_CHAR=08B64096-0772-4904-9D48227D5C9FAC75 Chain Letters and Evolutionary Histories], ''Scientific American'' '''288''':6, 76-81</ref>、[[模式识别]]、异常检测和其他形式的[[数据分析]]。<ref>
{{Cite web
|author = David R. Anderson
|title = Some background on why people in the empirical sciences may want to better understand the information-theoretic methods
|date = November 1, 2003
|url = http://aicanderson2.home.comcast.net/~aicanderson2/home.pdf
|format = pdf
|accessdate = 2010-06-23
|deadurl = yes
|archiveurl = https://web.archive.org/web/20110723045720/http://aicanderson2.home.comcast.net/~aicanderson2/home.pdf
|archivedate = 2011年7月23日
}}
</ref>
[[熵 (信息论)|熵]]是信息的一个关键度量,通常用一条消息中需要存储或传输一个{{le|符号率|Symbol rate|符号}}的平均比特数来表示。熵衡量了预测[[随机变量]]的值时涉及到的不确定度的量。例如,指定[[掷硬币]]的结果(两个等可能的结果)比指定掷股子的结果(六个等可能的结果)所提供的信息量更少(熵更少)。
信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由[[有噪信道编码定理|信道编码定理]]、[[信源-信道隔离定理]]相互联系。
信息论的基本内容的应用包括[[无损数据压缩]](如[[ZIP格式|ZIP文件]])、[[有损数据压缩]](如[[MP3]]和[[JPEG]])、[[信道容量|信道编码]](如[[DSL|数字用户线路(DSL)]])。这个领域处在[[数学]]、[[统计学]]、[[计算机科学]]、[[物理学]]、[[神经科学]]和[[电机工程学]]的交叉点上。信息论对[[航海家计画|航海家]]深空探测任务的成败,光盘的发明,手机的可行性,[[互联网]]的发展,[[语言学]]和人类感知的研究,对[[黑洞]]的了解,和许多其他领域都影响深远。信息论的重要子领域有[[数据压缩|信源编码]]、[[前向错误更正|信道编码]]、[[柯氏复杂性|算法复杂性理论]]、[[算法信息论]]、[[资讯理论安全性]]和信息度量。
== 简述 ==
信息论的主要内容可以类比人类最广泛的交流手段——语言来阐述。
一种简洁的语言(以[[英语]]为例)通常有两个重要特点:
首先,最常用的词(比如"a"、"the"、"I")应该比不太常用的词(比如"benefit"、"generation"、"mediocre")要短一些;其次,如果句子的某一部分被漏听或者由于[[噪声]]干扰(比如一辆车辆疾驰而过)而被误听,听者应该仍然可以抓住句子的大概意思。而如果把电子[[通信系统]]比作一种语言的话,这种[[健壮性 (计算机科学)|健壮性]](robustness)是不可或缺的。将健壮性引入通信是通过[[信道编码]]完成的。[[信源编码]]和信道编码是信息论的基本研究课题。
注意这些内容同消息的重要性之间是毫不相干的。例如,像“多谢;常来”这样的客套话与像“救命”这样的紧急请求在说起来、或者写起来所花的时间是差不多的,然而明显后者更重要,也更有实在意义。信息论却不考虑一段消息的重要性或内在意义,因为这些是数据的质量的问题而不是数据量(数据的长度)和[[可读性]]方面上的问题,后者只是由[[概率]]这一因素单独决定的。
== 信息的度量 ==
===信息熵===
美国数学家[[克劳德·香农]]被称为“信息论之父”。人们通常将香农于1948年10月发表于《{{tsl|en|Bell System Technical Journal|贝尔系统技术学报}}》上的论文《{{tsl|en|A Mathematical Theory of Communication|通信的数学理论}}》作为现代信息论研究的开端。这一文章部分基于[[哈里·奈奎斯特]]和{{tsl|en|Ralph Hartley|拉尔夫·哈特利}}于1920年代先后发表的研究成果。在该文中,香农给出了[[信息熵]]的定义:
:<math>H(X)=E[\log_2(X)] =\sum_{x\in\mathcal{X}}^{}p(x)\log_2(\frac{1}{p(x)})</math>
其中<math>\mathcal{X}</math>为有限个事件x的集合,<math>X</math>是定义在<math>\mathcal{X}</math>上的随机变量。信息熵是随机事件不确定性的度量。
信息熵与物理学中的[[热力学熵]]有着紧密的联系:
:<math>S(X)=k_BH(X) </math>
其中S(X)为热力学熵,H(X)为信息熵,<math>k_B</math>为[[波兹曼常数]]。
事实上这个关系也就是广义的[[波兹曼熵公式]],或是在[[正则系综]]内的热力学熵表示式。如此可知,[[玻尔兹曼]]与[[吉布斯]]在统计物理学中对熵的工作,启发了信息论的熵。
信息熵是[[信源编码定理]]中,压缩率的下限。当我们用少于信息熵的资讯量做编码,那麽我们一定有资讯的损失。夏农在[[大数定律]]和{{tsl|en|Asymptotic equipartition property|渐进均分性}}的基础上定义了{{tsl|en|Typical set|典型集}}和典型-{序列}-。典型集是典型-{序列}-的集合。因为一个独立同分布的<math>X</math>-{序列}-属于由<math>X</math>定义的典型集的机率大约为1,所以只需要将属于典型集的无记忆<math>X</math>信源-{序列}-编为唯一可译码,其他-{序列}-随意编码,就可以达到几乎无损失的压缩。
====例子====
若S为一个三个面的股子,
P(面一)=1/5,
P(面二)=2/5,
P(面三)=2/5
<math> H(X)=\frac{1}{5}\log_2 (5)+\frac{2}{5}\log_2\left(\frac{5}{2}\right)+\frac{2}{5}\log_2\left(\frac{5}{2}\right) </math>
===联合熵(Joint Entropy)与条件熵(Conditional Entropy)===
[[联合熵]]由熵的定义出发,由[[联合分布]],我们有:
:<math>H(X,Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(x,y)})</math>
[[条件熵]],顾名思义,从条件机率p(y|x)做定义:
:<math>H(Y|X)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}^{}p(x,y)\log(\frac{1}{p(y|x)})</math>
因为由[[贝氏定理]],我们有<math>p(x,y)=p(y|x)p(x)</math>,带入联合熵的定义,可以分离出条件熵,于是得到联合熵与条件熵的关系式:
:<math>H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)=H(Y,X)</math>
====链式法则====
我们可以再对联合熵与条件熵的关系做推广,假设现在有n个随机变量<math>X_i, i=1,2,...,n</math>,重複分离出条件熵,我们有:
:<math>\begin{align} H(X_1,X_2,...,X_n)&=H(X_1)+H(X_2,...,X_n|X_1)=H(X_1)+H(X_2|X_1)+H(X_3,...,X_n|X_1,X_2)\\
&=H(X_1)+\sum_{i=2}^{n}H(X_i|X_1,...,X_{i-1})\end{align}</math>
他的意义显而易见,假如我们接收一段数列<math>\{X_1,X_2,...,X_n\}</math>,且先收到<math>X_1</math>,再来是<math>X_2</math>,依此类推。那麽收到<math>X_1</math>后总讯息量为<math>H(X_1)</math>,收到<math>X_2</math>后总讯息量为<math>H(X_1)+H(X_2|X_1)</math>,直到收到<math>X_n</math>后我们的总讯息量应为<math>H(X_1,...,X_n)</math>,于是这个接收过程中就给出了链式法则。
===互信息===
[[互信息]](Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件<math>X</math>和<math>Y</math>的互信息定义为:
:<math>I(X;Y) = H(X)-H(X|Y)=H(X) + H(Y) - H(X, Y)=H(Y)-H(Y|X)=I(Y;X)</math>
其意义为,若我们想知道<math>Y</math>包含多少<math>X</math>的资讯,在尚未得到<math>Y</math>之前,我们的不确定性是<math>H(X)</math>,得到Y后,不确定性是<math>H(X|Y)</math>。所以一旦得到<math>Y</math>后,我们消除了<math>H(X)-H(X|Y)</math>的不确定量,这就是Y对X的资讯量。
如果<math>X,Y</math>互为独立,则<math>H(X,Y)=H(X)+H(Y)</math>,于是<math>I(X;Y)=0</math>。
又因为<math>H(X|Y)\leq H(X)</math>,所以
:<math>I(X;Y)\leq \min(H(X),H(Y))</math>,其中等号成立条件为Y=g(X),g是一个[[双射|-{zh:双射;zh-hans:双射;zh-hant:对射}-]]函数
互信息与{{tsl|en|G-test|G检验}}以及[[皮尔森卡方检定|皮尔森卡方-{A|zh-hans:检验;zh-hant:检定;}-]]有着密切的联系。
== 应用 ==
信息论被广泛应用在:
*[[编码理论]]
*[[密码学]]
*[[数据传输]]
*[[数据压缩]]
*[[检测理论]]
*[[估计理论]]
*[[数据加密]]
== 参考文献 ==
{{Reflist}}
== 外部链接 ==
* [http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6773024 香农论文:通信的数学理论]
{{-}}
{{数学主要领域}}
{{Computer Science}}
{{Authority control}}
[[Category:通信]]
[[Category:控制论]]
[[Category:信息论| ]]
[[Category:形式科学]]
[[Category:信息时代]]