Maximum entropy model
January 27, 2018
最早接触墒应该是在物理学里面,算是宇宙的默认规则。没有能量输入的情况下,墒会越来越大。房间不整理会越来越乱,明天不努力会变的更差。写到这里我突然理解了萨格拉斯为啥要燃烧的远征,熵和混乱是无法消除的,我们只是让某些局部变得更有秩序,把混乱转移到另一些领域。混乱才是宇宙的终极目标。萨格拉斯是个物理学家:)
最大墒模型的基本思想很简单,就是在已知的约束外不做任何其他假设,在所有满足约束条件的模型集合中选取墒最大的模型。
但是这个思想可以解释很多模型,与指数分布组还有log likehood有密切关系。
Definition: MLE(or MAP) when some data is missing or hidden
Given:
Model: for some (unknown) , usually a type of exponential family. X表示观测变量数据,Z表示隐藏变量数据。X和Z在一起表示完全数据(complete-data), 单独X表示不完全数据(incomplete-data)
Goal:
Issue: difficult to maximization.
比如GMM,难以找到最优解.
Algo:
- Initinalize
- For
- E-step: determine and
- M-step: , with fixed
Notes:
- Not guaranteed to give
- Convergence can be slow
- MLE may overfit, MAP maybe better
直观解释
假设有A,B两个硬币,这两个硬币扔出正面(head那一面)的概率未知,按下面步骤进行估计。
- step 1: 随机选择一个硬币,用选中硬币扔10次,得到一组实验数据序列(比如:H,T,H,T,H,H,T…)
- step 2: 上述步骤共做5组。
5组实验选择的硬币已知
5组实验选择的硬币未知
- 假设是观测到的序列(H记为1,T记为0组成的长度为10的序列),
- 选硬币A的概率为,选硬币B的概率为
- A出现正面的概率为,B出现正面的概率为
则一组实验模型可写作
整个实验可以写作表示第i组实验选择的是A硬币,表示第i组选择的是B硬币
Initinalize
看公式,参数有3个图片中并未显示的表明,但是后续可以推导出当时,后续的估计值依然是0.5,故整个过程将该参数省略 :
假设:
E-step
Determine :
比如对于第一组实验,估计是硬币A的概率为
M-step
对中的参数求导,得到
最终可得到
比如: