MLAPP Chapter2 信息论

2023-11-24 07:26:39

2.8 信息论

信息论关注的是以一种紧凑的方式表示数据(一种称为数据压缩或源代码编码的任务)，以及以一种对错误(一种称为错误修正或信道编码的任务)鲁棒性很好的方式传输和存储数据。

起初，这似乎与概率论和机器学习的关注点相去甚远，但实际上有一种亲密的联系。要了解这一点，请注意，紧凑地表示数据需要将短码字分配到可能性高的位字符串，并将较长的码字保留到不太可能的位字符串。

这与自然语言中的情况类似，在自然语言中，常见的词(如“a”、“the”、“and”)通常比罕见的词短得多。此外，要解码通过噪声信道发送的消息，需要有一个良好的关于人们发送的消息类型倾向的概率模型。在这两种情况下，我们都需要一个模型来预测哪种数据是可能的，哪种是不可能的，这也是机器学习中的一个核心问题(有关信息理论和机器学习之间的联系的更多细节，请参见MacKay 2003)。

显然，我们不能在这里深入了解信息理论的细节(参见封面和托马斯2006)，如果您有兴趣了解更多的话。然而，我们将在本书后面介绍一些基本概念。

2.8.1 熵（Entropy）

一个分布为P的随机变量X，他的熵用H(X)或H(p)表示，熵是不确定性的测度。特别地，对于有K个状态的离散变量，定义为：

H(X)≜−∑k=1Kp(X=k)log2p(X=k) H ( X ) ≜ − ∑ k = 1 K p ( X = k ) l o g 2 p ( X = k ) $H(X)\triangleq -\sum_{k=1}^Kp(X=k)log_2p(X=k)$

通常我们用log_2，在这种情况下单位被称为位(bits)(二进制数字binary digits的缩写)。如果用log以e为底，单位称为nats。
均匀分布是熵最大的离散型分布。因此，对于k元随机变量，当 $p(x = k) = 1/ k$ 时，熵最大，此时 $H(X)=log_2K$ 。
相反，熵最小的分布（为0）是任何一个把质量都放在一个状态上的delta函数。这样的分布没有任何的不确定性。

2.8.2 KL散度

一种测量两个概率分布(p和q)的不相似性的方法被称为kullleibler散度(KL散度)或相对熵。定义如下：

KL(p||q)≜∑k=1Kpklogpkqk K L ( p | | q ) ≜ ∑ k = 1 K p k l o g p k q k $KL(p||q)\triangleq \sum_{k=1}^Kp_klog\frac{p_k}{q_k}$
将和替换成概率密度函数的积分，重写如下：

KL(p||q)=∑kpklogpk−∑kpklogqk=−H(p)+H(p,q) K L ( p | | q ) = ∑ k p k log ⁡ p k − ∑ k p k log ⁡ q k = − H ( p ) + H ( p , q ) $KL(p||q)=\sum_kp_k\log p_k - \sum_kp_k\log q_k=-H(p)+H(p,q)$

H(p,q) H ( p , q ) $H(p,q)$ 被称为交叉熵：

H(p,q)≜−∑kpklogqk H ( p , q ) ≜ − ∑ k p k log ⁡ q k $H(p,q)\triangleq -\sum_kp_k\log q_k$
交叉熵是当我们使用模型q定义我们的码本时，用分布为p的数据源进行编码所需的平均比特数。如果我们用真是模型，H(p)是期望的比特值，所以KL散度是它们之间的差。换句话说，KL散度是编码数据所需的额外比特的平均数，因为我们使用分布q来编码数据，而不是真正的分布p。
“额外的比特数”说明

KL(p||q)≥0 K L ( p | | q ) ≥ 0 $KL(p||q)≥0$ 并且仅当p=q时为0，现在给出一个重要结论：
定理2.8.1(信息不平等) $KL(p||q)≥0 除非p=q$

2.8.3 互信息

（待续….）

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 数据库原理xmind自我总结
下一篇 > LocalDate/LocalDateTime 时间差的计算

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

MLAPP Chapter2 信息论

2.8 信息论

2.8.1 熵（Entropy）

2.8.2 KL散度

2.8.3 互信息

相关文章