Muyun99's wiki Muyun99's wiki
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Muyun99

努力成为一个善良的人
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 代码实践-目标检测

  • 代码实践-图像分割

  • 代码实践-自监督学习

    • 自监督学习的一些文章
    • 名词解释
    • 组会思路
  • 竞赛笔记-视觉竞赛

  • 框架解析-mmlab系列

  • 讲座记录-有意思的文章集合

  • 体会感悟-产品沉思录观后有感

  • 体会感悟-摄影

  • 系列笔记-

  • 系列笔记-乐理和五线谱

  • 系列笔记-爬虫实践

  • 系列笔记-Django学习笔记

  • 系列笔记-Git 使用笔记

  • 系列笔记-网站搭建

  • 系列笔记-图卷积网络

  • 课程笔记-MIT-NULL

  • 系列笔记-OpenCV-Python

  • 系列笔记-使用 Beancount 记账

  • 系列笔记-Python设计模式

  • 系列笔记-MLOps

  • 系列笔记-Apollo自动驾驶

  • 系列笔记-PaddlePaddle

  • 系列笔记-视频操作

  • Vue+Django前后端分离开发

  • 深度学习及机器学习理论知识学习笔记

  • PyTorch Tricks

  • 学习笔记
  • 代码实践-自监督学习
Muyun99
2021-03-24

名词解释

介绍互信息之前,先引入信息论的一些概念

# Information (信息量)

刻画消除不确定性所需要的信息量,发生的事情概率越大,所带来的信息量越小,反之其信息量越大

I(x)=−log(p(x))=log1p(x)I(x) = -log(p(x)) = log \frac{1}{p(x)}I(x)=−log(p(x))=logp(x)1​

例如:

  • 事件A:扔骰子的点数大于3点,其概率为 12\frac{1}{2}21​

  • 事件B:扔骰子的点数为6,其概率为16\frac{1}{6}61​

  • 我们认为事件 B 体现的信息量更大

# Entropy(熵)

信息熵用于衡量整体所带来的信息量的大小,即利用期望进行评估“事件香农信息 量 x 事件概率的累加",也是信息熵的概念

H(U)=E[−logpi]=∑i=1npi∗log1piH(U) = E[-logp_i] = \sum_{i=1}^n{p_i*log\frac{1}{p_i}}H(U)=E[−logpi​]=∑i=1n​pi​∗logpi​1​

例如:

  • abbbb 其信息熵 H(U)=−15log15−45log45≈0.54H(U)=-\frac{1}{5}log\frac{1}{5}-\frac{4}{5}log\frac{4}{5} \approx 0.54H(U)=−51​log51​−54​log54​≈0.54

  • abcde 其信息熵 H(U)=5(−15log15)≈1.61H(U)=5(-\frac{1}{5}log\frac{1}{5}) \approx 1.61H(U)=5(−51​log51​)≈1.61

  • 计算得到的 "abcde" 信息熵要大于 "abbbb",其整体的信息量也更大

# Cross Entropy(交叉熵)

两个随机变量的熵

H(p,q)=∑1Np(x)log1q(x)H(p,q) = \sum_{1}^{N}p(x)log\frac{1}{q(x)}H(p,q)=∑1N​p(x)logq(x)1​

熵的连锁规则:

H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y)

# KL Divergence(KL散度或相对熵)

用于衡量概率分布间的差异,也就是信息熵的差异

DKL(p∣∣q)=H(p,q)−H(p)=∑1N[p(xi)log1p(xi)−p(xi)log1q(xi)]D_{KL}(p||q) = H(p,q)-H(p) = \sum_1^N[p(x_i)log\frac{1}{p(x_i)}-p(x_i)log\frac{1}{q(x_i)}]DKL​(p∣∣q)=H(p,q)−H(p)=∑1N​[p(xi​)logp(xi​)1​−p(xi​)logq(xi​)1​]

整理一下可得:

DKL(p∣∣q)=H(p,q)−H(p)=∑1Np(x)logp(x)q(x)D_{KL}(p||q) = H(p,q)-H(p) = \sum_{1}^N p(x)log\frac{p(x)}{q(x)}DKL​(p∣∣q)=H(p,q)−H(p)=∑1N​p(x)logq(x)p(x)​

KL 散度的最大特点是不对称,即DKL(p∣∣q)≠DKL(q∣∣p)D_{KL}(p||q) \neq D_{KL}(q||p)DKL​(p∣∣q)=DKL​(q∣∣p)

# JS Divergence(JS散度)

JS 散度的特点是其对称,即DJS(p∣∣q)≠DJS(q∣∣p)D_{JS}(p||q) \neq D_{JS}(q||p)DJS​(p∣∣q)=DJS​(q∣∣p)

# Mutual Information(互信息)

已知两个变量x,yx,yx,y,若 p(x,y)=p(x)p(y)p(x,y) = p(x)p(y)p(x,y)=p(x)p(y) ,则两个随机变量 x,yx,yx,y 独立。由贝叶斯公式即可得到:

p(y∣x)=p(x,y)/p(x)=p(x)p(y)/p(x)=p(y)p(y|x) = p(x,y)/p(x) = p(x)p(y)/p(x) = p(y)p(y∣x)=p(x,y)/p(x)=p(x)p(y)/p(x)=p(y)

独立性的判别公式反映了已知 xxx 的情况下,yyy 的分布是否会发生改变(能否为 yyy 带来新的信息).然而独立性只能表示两变量是否有关系,而不能描述他们的关系强弱。

所以引入互信息来量化的评价随机变量之间依赖关系的强弱。定义互信息 I(x,y)I(x,y)I(x,y):

I(X,Y)=H(X)−H(X∣Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)I(X,Y) = H(X)-H(X|Y) = \sum_{x\in{X}}\sum_{y\in{Y}}p(x,y)log\frac{p(x,y)}{p(x)p(y)}I(X,Y)=H(X)−H(X∣Y)=∑x∈X​∑y∈Y​p(x,y)logp(x)p(y)p(x,y)​

互信息的性质

  • 对称性:I(xi,yj)=I(yj,xi)I(x_i,y_j)=I(y_j,x_i)I(xi​,yj​)=I(yj​,xi​)
  • 非负性:I(xi,yj)=0I(x_i,y_j) = 0I(xi​,yj​)=0
  • X与Y独立时:I(X,Y)=0I(X,Y) = 0I(X,Y)=0
上次更新: 2021/08/02, 21:04:52
自监督学习的一些文章
组会思路

← 自监督学习的一些文章 组会思路→

最近更新
01
Structured Knowledge Distillation for Semantic Segmentation
06-03
02
README 美化
05-20
03
常见 Tricks 代码片段
05-12
更多文章>
Theme by Vdoing | Copyright © 2021-2023 Muyun99 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×