总结 分布 --- 贝叶斯 --- 信息熵

分布

  • 联合分布

    • 定义:2个随机变量联合表示起来称为联合概率
    • 举一个例子:这里有一些扑克牌,接下来我们来求一下联合分布

    在这里插入图片描述

    • 在这里插入图片描述
    • 这里的人头指的是:J,Q,K
    • 这里的数字指的是:A-9
    • 这里的红色指的是:红桃,方片
    • 这里的黑色指的是:梅花,黑桃
    • 联合分布也就是从2个方向描述比如上面的1/16,就是既是黑色又是人头的个数占扑克牌的总个数
  • 边缘分布

    • 还是上面的扑克牌,我们再来求一下边缘分布
    • 在这里插入图片描述
    • 而边缘分布是从1个方向上进行描述比如9/16,就是红色占扑克牌总数的占比,不用管它是数字还是人头
  • 离散分布

      二项分布
    
    • 二项分布:每次产生的结果相互独立,成功的概率保持不变的事件的成功的次数,就是------->二项分布
    • 公式:在这里插入图片描述
    • 其中n表示实验总次数,k表示成功的次数
    • 在这里插入图片描述
    • 横轴表示:实验成功的次数
    • 纵轴表示:实验成功的概率
    • 当成功的次数相同时,从图上可知实验成功的概率越大,图像形状越陡峭
    • 当成功的概率相同时,从图上可知实验成功的次数越大,图像形状越平缓

超几何分布

  • 超几何分布:它和二项分布还有一些渊源,在一个盒子里,放着2种颜色的球,一种黑色,一种白色,求随机抽取,记录它是不是黑球的概率,重点来了,如果每次取出并把球放回去,重复这个过程,看看有多少次取出的是黑球,这一计数遵循二项分布,如果不放回取出的球,那么这一计数就是超几何分布,说白了,就是取出不放回的计数,就是超几何分布;而取出放回就是二项分布
  • 公式:

在这里插入图片描述

  • n表示样本的数量
  • k表示不合格的个数
  • 在这里插入图片描述
  • 横轴表示不合格的数量
  • 纵轴表示概率密度函数
  • 当总次数一致时,实验数越多,概率密度的峰值越低
  • 当总次数一致时,不合格数越多,概率密度的峰值也越低

多项分布:二项分布的一个扩展,二项分布是一个单变量分布,多项分布是一个多变量分布

  • 公式
  • 在这里插入图片描述
  • 比如:投掷骰子,1的概率,2的概率,3的概率等等,就是一个多项分布

几何分布:在第一次出现正面之前,出现多上次背面的分布也就是结果本身失败的实验次数

  • 公式
  • 在这里插入图片描述
  • 横轴表示第n次成功,失败的次数
  • 纵轴表示成功的概率

泊松分布:表示事件在单位时间内发生n次的概率

  • 公式

  • 在这里插入图片描述

  • λ表示单位时间内发生的次数

  • 公式推导过程

  • 在这里插入图片描述

  • e:增长的极限 ≈ 2.71828

  • 最后不管年利率,月利率,天利率,最后的结果都在e的边缘

  • 已知莫医院平均一天里有λ名诞生儿,一天有86400秒,假设新生儿不可能在同一秒诞生,且每个诞生儿的概率都是相同的,均为 (λ/86400)

  • 事件总数n = 86400,成功的概率 = (λ/86400) ,失败的概率 = 1- (λ/86400),每日出生k个婴儿,带入公式为:

  • 在这里插入图片描述

  • 在这里插入图片描述

  • 当n趋向于无穷大,k和λ趋向于无穷小时,结合上面的年利率的例子

  • 在这里插入图片描述

  • 连续分布

指数分布:泊松分布研究的时一个时间段内发生的次数,而指数分布则研究的是独立事件放生的时间间隔

  • 在这里插入图片描述
  • 横轴表示发生的时间间隔
  • 纵轴表示发生的概率

正太概率分布:描述连续性随机变量的一种分布

  • 公式
  • 在这里插入图片描述
  • 在这里插入图片描述
  • 横轴表示连续区间
  • 纵轴表示发生的概率

拉普拉斯分布:双边指数分布

  • 公式
  • 在这里插入图片描述
  • 在这里插入图片描述
  • 横轴表示连续区间
  • 纵轴表示发生的概率

贝叶斯

  • 贝叶斯:用来描述两个条件概率之间的关系,比如 P(A|B) 和 P(B|A)。按照乘法法则,可以立刻导出:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。如上公式也可变形为:P(A|B)=P(B|A)*P(A)/P(B)
  • 公式
  • 在这里插入图片描述
  • 全概率公式
  • 在这里插入图片描述
  • 条件概率公式
  • 在这里插入图片描述

朴素贝叶斯:特征相互独立,简化贝叶斯方法的一种分类方法

  • p(真)和p(假)分母都一样,所以分母不用算(比较大小)

信息熵

  • 信息熵

大数据思维实质:就是提供有价值的信息降低信息熵
信息熵:是在结果出来之前对可能产生的信息量的期望
信息熵:信息量的期望

  • 公式

  • 在这里插入图片描述

  • 小集合公式

  • 在这里插入图片描述

  • 数据集D中有V个离散属性划分为v个小集合的信息熵

  • 数据集

  • 在这里插入图片描述

  • 信息熵在这里插入图片描述
    联合熵:两个随机变量X,Y的联合分布,用H(X,Y)表示
    条件熵:在得知某一确定信息的基础上获取另一个信息时所获得的信息量
    互信息:应用场景—>相关性:知道一个对知道另一个帮助有多大
    推导公式过程:

在这里插入图片描述

  • 其中p(x) —>
  • 在这里插入图片描述


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部