1. 根据最大熵的学习过程学习最大熵模型
最大熵的学习过程是一种数学计算方法
最大熵模型是一种机器学习模型
虽然都带有“最大熵”这三个字,但不是一回事
根据最大熵模型的定义列出最大熵模型的求最大熵公式和限制条件:
最大熵公式:
H(P)=−x,y∑P~(x)P(y∣x)logP(y∣x)maxH(P)
限制条件:
EP(fi)=Ep~(fi)y=0∑KP(y∣x)=1
将求最大值问题改写成求最小值问题。将condition换一种写法。
min−H(P)f0:1−y=0∑KP(y∣x)=0f1:EP(f0)−Ep~(f0)=0⋯f1+n:EP(fn)−Ep~(fn)=0
- 根据约束条件定义拉格朗日函数
L(P,w)=−H(P)+w0(1−y=0∑KP(y∣x))+i=0∑nwi+1fi(EP(fi)−Ep~(fi))
- L(P, w)对每个P(yk∣x)求偏导,并这些偏导= 0
∂(yk∣x)∂L(P,w)=x,y∑P~(x)(logP(y∣x)+1−w0−i=0∑n)wi+1fi(x,y)=0
- 根据第4步得到K个等式。通过这K个等式,解出P(y1),⋯,P(yK),这些值都是用w表达的式子
P(y∣x)=exp(1−w+0)exp(∑i=0n)wi+1fi(x,y)
对每个P(y|x)来说公式是一样的。
- 代入P(y1),⋯,P(yK)到第3步中的L(P,w),将得到新的L(P,w)
令Ψ(x)=新的L(P,w)
这里的Ψ(x)就叫对偶函数,同时其解记作
Pw=argP∈CminL(P,w)=Pw(y∣x)
现在要极大化对偶函数Ψ(x)。按照上一节的“最大熵学习过程”,将Ψ(x)对所有w分别求并令导入为0,即可解出w,进而代入第5步专求出最终结果。
但在求最大熵模型的对偶函数的极大化时,并没有使用这种方法的,而是使用了目标函数最优化问题中的方法来求w。